图 灵 程 序 设计 从 书 Think Stats 





[ 美 ] Allen B. Downey 著 
张 建 笑 陈钢 译 


O'REILLY* 委 信 民 邮 电 出 版 社 


S 





数字 版 权 声 明 


图 灵 社 区 的 电子 书 没有 采用 专 有 
客户 端 ， 您 可 以 在 任意 设备 上 ， 
用 自己 喜欢 的 浏览 器 和 PDF 阅读 
器 进行 阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 
用 ， 未 经 授权 ， 不 得 进行 传播 。 


我 们 愿意 相信 读者 具有 这 样 的 民 
知 和 觉悟 ， 与 我 们 共同 保护 知识 
De 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 
能 对 该 用 户 实施 包括 但 不 限于 关 
闭 该 帐号 等 维权 措施 ， 并 可 能 追 
究 法 律 责任 。 


ER 图 录 程 启 设 计 从 书 
统计 思维 
程序 员 数 学 之 概率 统计 
Think Stats 





[ 美 ] Allen B. Downey 著 
张 建 锋 陈钢 译 


CO 〇 REILLY 


Beijing * Cambridge 。 Farnham 。« Koln * Sebastopol »。 Tokyo 
O’Reilly Media, Inc. 授 权 人 民 邮 电 出 版 社 出 版 


人 人民 邮电 出 版 社 
疙 .也 


图 书 在 版 编目 CC I P ) 数据 





统计 思维 : 程序 员 数 学 之 概率 统计 / ( 美 ) 唐 尼 
(Downey, A.B.) 车 ; 张 建 笑 ， 陈 钢 译 ，-- 北京 : 人 民 
邮电 出 版 社 ，2013.5 

(图 灵 程 序 设计 从 书 ) 

书 名 原文 : Think stats 

ISBN 978-7-115-31737-7 


I ，QD 统 … 工 ， 四 唐 … 四 张 … @ 陈 … I[，Q 概 率 统 
计 IV. @D0211 


中 国 版 本 图 书馆 CIP 数 据 核 字 (2013) 第 086989 号 
内 容 提要 
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本 书面 向 广大 程序 员 和 计算 机 专业 的 学 生 。 
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创立 了 Make 杂志 ， 从 而 成 为 DIY 革命 的 主要 先锋 ， 公 司 一 如 既往 地 通过 多 种 
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形式 缔结 信息 与 人 的 纽带 。O'Reilly 的 会 议和 峰会 聚集 了 众多 超级 极 客 和 高 瞻 
届 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 的 革命 性 思想 。 作 为 技术 人 士 获取 信 
的 选择 ，O’Reilly 现在 还 将 先锋 专家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 
通过 书籍 出 版 、 在 线 服务 或 者 面授 课程 ， 每 一 项 O'Reilly 的 产品 都 反映 了 公 
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“O’Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
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“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 且 切 实 
地 按照 Yogi Berra 的 建议 去 做 了 : “如 果 你 在 路 上 遇 到 岔路 口 ， 走 小 路 ( 贫 
路 ) ”回顾 过 去 ，Tim 似乎 每 一 次 都 选择 了 小 路 ， 而 且 有 几 次 都 是 一 闪 即 
逝 的 机 会 ， 尽 管 大 路 也 不 错 。” 
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搞 科研 的 都 知道 ， 论 文 发 表情 况 是 评判 科研 水 平 的 主要 指标 ， 而 学 术 
期 刊 的 影响 因子 则 代表 了 期 刊 的 档次 ， 从 而 也 就 直接 反映 了 论文 的 水 
平 。 在 统计 学 领域 ， 影 响 因 子 最 高 的 期 刊 是 什么 ? 不 是 《皇家 统计 学 
会 志 ，B 辑 》(JRSS B) ， 也 不 是 大 名 见 电 的 《统计 年 览 》(4mmals of 
Statistics) 和 《美国 统计 学 会 会 刊 》(J4s4) ， 而 是 《统计 软件 杂志 》 
(Journal of Statistical Softrware)。 什 么 ?我 推导 了 十 几 页 公式 ， 提 出 
了 如 此 高 级 的 统计 模型 ， 证 明了 十 几 年 无 人 搞定 的 定理 ， 竟 然 还 不 如 
写 两 千 行 代码 ， 发 布 一 个 统计 分 析 的 小 工具 ? 


这 样 的 统计 学 世界 让 人 感觉 怪 怪 的 ， 但 现实 如 此 。 统 计 学 的 分 析 对 象 
再 也 不 放 进 打印 在 A4 纸 上 的 表格 ， 靠 普通 计算 器 和 教科 书 附录 中 的 
各 种 表格 已 经 不 可 能 实现 现实 所 需 的 统计 分 析 一 一 离开 了 计算 机 ， 统 
计 在 现代 科学 和 工程 领域 寸步 难 行 。 


不 讲 代 码 的 统计 学 图 书 已 经 过 时 了 1 


你 手中 的 这 本 书 不 是 教 你 如 何在 SPSS 中 点 鼠标 ， 也 不 是 如 何在 SAS 
中 调用 函数 ， 而 是 介绍 如 何 用 Python 这 样 的 通用 编程 语言 去 获取 和 处 
理 原始 数据 ， 去 理解 和 实现 统计 分 析 ， 去 跟 上 时 代 对 统计 的 要 求 。 


本 书 采 用 大 量 实例 介绍 了 基本 的 统计 分 析 知 识 ， 教 你 如 何 用 Python 编 
程 语言 实现 各 种 分 析 ， 乃 至 画 出 统计 图 形 。 本 书 提供 了 绝对 实用 的 配套 
































代码 ， 你 可 以 直接 “ 拿 来 ”对 大 量 数 据 进行 分 析 。 作 者 Allen Downey 
是 高 校 副教授 ， 先 后 获得 麻 省 理工 学 院 计 算 机 科学 硕士 和 加 州 大 学 伯 克 
利 分 校 计 算 机 科学 博士 学 位 。 别 惊讶 ， 是 的 ! 计算 机 专业 的 教授 写 的 统 
计 学 读本 ,这 才 是 这 本 书 最 大 的 亮点 。 统 计 学 和 计算 机 在 本 书 中 紧 紧 地 
拥抱 在 一 起 ， 这 是 多 美好 的 场景 。 


好 吧 ， 准 备 好 键盘 ， 让 我 们 开始 一 次 硅 世 界 的 统计 学 旅程 ! 


张剑锋 陈钢 
2013 年 3 月 26 日 于 深圳 华 大 基因 
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Ml 


为 何 写 这 本 书 

本 书 是 一 本 全 新 的 概率 统计 入门 教材 ， 重 点 介绍 如 何 用 统计 学 方法 分 
析 大 型 数据 集 。 本 书 会 介绍 如 何 使 用 计算 机 实现 各 种 统计 方法 ， 这 有 
诸多 优点 。 


。 学 生 可 以 通过 编写 程序 来 深化 和 检查 自己 对 概念 的 理解 。 例 如 ， 编 
写 计 算 最 小 二 乘 拟 合 、 残 差 和 判定 系数 的 函数 ， 编 写 和 测试 这 些 代 
码 需 要 他 们 正确 理解 相关 概念 ， 消 除 各 种 可 能 的 误解 。 

。 学 生 能 够 通过 计算 实验 来 验证 统计 学 上 的 一 些 定理 。 例 如 ， 生 成 
服从 各 种 分 布 的 样本 来 验证 中 心 极限 定理 (Central Limit Theorem， 
CLT)。 当 发 现 服 从 帕 累 托 分 布 的 样本 并 没有 收敛 到 正 态 分 布 时 ， 他 
们 肯定 会 记 住 中 心 极限 定理 的 前 提 条 件 。 

。 有 些 从 数学 上 很 难 理解 的 概念 可 以 很 容易 地 用 模拟 方法 来 阐述 。 例 
如 ， 通 过 蒙特 卡 罗 模 拟 近 似 求 出 P 值 ， 就 能 说 明 p 值 的 含义 。 

。 使 用 离散 分 布 和 计算 方法 可 以 把 贝 叶 斯 模拟 之 类 在 入 门 课程 中 很 少 
见 的 内 容 讲 清楚 。 例 如 ， 本 书 中 有 个 练习 要 求学 生计 算 “ 德 国 坦克 
问题 ”(German tank problem) 的 后 验 分 布 ， 通 过 理论 分 析 很 难得 到 
答案 ， 但 用 计算 手段 却 很 容易 得 出 结果 。 
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。 因为 学 生 使 用 的 是 通用 编程 语言 Python， 所 以 他 们 可 以 导入 各 种 来 
源 的 数据 ， 并 不 局 限于 那些 已 经 为 特定 统计 工具 整理 好 的 数据 。 


本 书 内 容 是 按 项 目 来 组 织 的。 在 我 的 课 上 ， 学 生 会 用 一 个 学 期 的 时 间 
来 做 一 个 项 目 ， 在 此 期 间 他 们 要 提出 统计 学 问题 、 找 到 合适 的 数据 
集 ， 并 用 学 到 的 技术 来 处 理 这 些 数据 。 

为 了 演示 我 想 要 学 生 做 的 分 析 ， 本 书 会 有 一 个 贯穿 全 书 的 实例 。 它 所 
使 用 的 数据 主要 有 以 下 两 个 来 源 。 











。 由 美国 疾病 控制 与 预防 中 心 (Centers for Disease Control and Prevention ， 
CDC) 主持 的 全 国家 庭 成 长 调查 (National Survey of Family Growth， 
NSFG) 项 目 , 该 项 目 是 为 了 收集 美国 人 的 “家 庭 生活 、 婚 姻 状况 .生育 、 
避孕 和 男女 健康 等 信息 ”( 参 见 http:/cdc.govnchs/mnsfg.htm ) 。 

。 由 全 国 慢性 病 预防 和 健康 促进 中 心 主导 的 行为 风险 因素 监测 系统 (the 
Behavioral Risk Factor Surveillance System，BRFSS)， 该 系统 旨 在 跟 
踪 “ 美 国人 的 健康 状况 和 危险 行为 ”( 参 见 http://cdc.gov/BRFSS/) 。 


其 他 例子 所 使 用 的 数据 则 来 自 IRS (美国 国税 局 )、 美 国人 口 普 查 和 
波士顿 马拉松 比赛 。 


本 书 的 写作 原则 


要 写 一 本 新 教材 ， 通 常 的 做 法 是 参考 一 堆 老 教材 。 很 多 书 的 内 容 因 此 都 会 
重复 ， 且 行文 组 织 也 大 同 小 异 ， 出 现 了 不 少 以 论 传 这 的 情况 。 史 蒂 芬 。 古 
尔 德 在 他 的 文章 中 就 提 到 过 一 个 关于 猎 狐 犬 的 例子 。 但 我 可 没有 这 样 做 ， 
我 在 撰写 本 书 过 程 中 几乎 没有 参考 过 任何 已 出 版 的 材料 ， 主 要 原因 如 下 。 


。 本 书 的 目的 是 要 探索 这 方面 的 新 方法 ， 所 以 对 已 有 的 方法 我 并 不 想 
讲 太 多 。 



































注 1: Stephen Jay Gould (1941 一 2002) ， 美 国 著名 的 进化 生物 学 家 、 古 生物 学 家 、 科 学 史 
学 家 和 科普 作家 ， 很 多 教科 书 中 说 始祖 马 跟 小 猎 狐 犬 差不多 大 ， 史 蒂 芬 。 古 尔 德 在 
他 的 文章 中 纠正 了 这 一 错误 观点 〈 译 者 注 )， 狗 大 概 只 有 始祖 马 的 一 半 大 ( 见 http:/ 
wikipedia.org/wiki/Hyracotherium ) 。 
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Dll 


我 想 让 所 有 人 都 可 以 自由 地 使 用 本 书 内 容 ， 因 此 要 确保 书 中 所 有 内 
容 都 没有 版 权限 制 。 


。 很 多 读者 都 不 方便 到 图 书馆 借阅 纸 版 书 ， 所 以 本 书 尽量 只 引用 能 在 
网 上 免费 查阅 的 内 容 。 


传统 媒体 的 支持 者 认为 只 使 用 网 络 资源 是 一 种 偷懒 的 行为 ， 而 且 内 
容 也 不 可 靠 。 我 认同 前 半 和 名 话 , 但 不 同意 后 半 句 , 所 以 我 要 亲自 证 明 。 


我 用 得 最 多 的 资源 是 维基 百科 ， 其 内 容 涉及 方方面面 ， 每 个 人 都 可 以 
查阅 。 总 体 看 来 ， 我 所 读 过 的 关于 统计 学 的 文章 整体 质量 都 不 错 (不 
过 我 也 做 了 一 些 修改 )。 本 书 引 用 了 不 少 维基 百科 的 链接 ， 建 议 读者 
去 读 一 读 这 些 网 页 内 容 。 这 些 页 面 很 多 时 候 都 是 对 本 书 所 介绍 内 容 的 
很 好 补充 和 完善 。 除 非 有 充分 的 理由 修改 ， 否 则 本 书 中 所 使 用 的 术语 
和 概念 与 维基 百科 基本 保持 一 致 。 




















其 他 实用 资源 包括 Wolfram MathWorld (http://mathworld.wolfram.com/)， 
当然 还 有 Google。 我 还 用 到 了 两 本 书 ，David MacKay 的 Information 
Theory, Inference, and Learning Algorithms” 和 Press 等 人 合 车 的 Numerical 
Recipes in C， 前 者 是 我 学 习 贝 叶 斯 统计 的 书 。 不 过 ， 因 为 这 两 本 书 都 可 
以 在 网 上 找到 ， 所 以 并 不 违反 我 之 前 所 说 的 原则 。 


贡献 者 名 单 

对 本 书 有 任何 意见 或 者 建议 ， 请 发 送 邮 件 到 downey@allendowney. 
com。 如 果 本 书 根据 你 的 反馈 进行 了 修改 ， 我 会 把 你 加 入 贡献 者 名 单 
(除非 你 主动 要 求 不 加 入 )。 

最 好 能 写 清 具 体 出 错 的 句子 ， 以 便 我 找 出 问题 。 只 给 出 页 码 和 章节 号 
也 行 ， 但 不 方便 。 非 常 感谢 ! 

。 Lisa Downey 和 June Downey 陪读 了 早期 的 书稿 ， 提 出 了 很 多 意见 和 

建议 。 























注 2: 中 译本 《信息 论 、 推 理 与 学 习 算 法 (翻译 版 )》 由 高 等 教育 出 版 社 出 版 (2006) ， 
《C 语言 数值 算法 程序 大 全 (第 二 版 )》 由 电子 工业 出 版 社 出 版 (1995)。 编者 注 















































Steven Zhang 发 现 了 一 些 错 误 。 

Andy Pethan 和 Molly Farison 帮 有 我 调试 了 一 些 解 题 程序 ，Molly 指出 
了 一 些 拼写 错误 。 

Andrew Heine 发 现 了 error 函数 中 的 错误 。 

Nikolas Akerblom 博士 告诉 了 我 始祖 马 的 大 小 。 

Alex Marrow 改进 了 一 个 代码 示例 的 说 明 。 

Jonathan Street 在 关键 时 刻 发 现 了 一 个 错误 。 

Gibor Liptak 发 现 了 一 个 拼写 错误 和 接力 赛 问 题 的 答案 。 


感谢 Kevin Smith 和 Tim Arnold 写 的 plasTeX， 我 用 它 将 此 书 转 成 了 
DocBook。 


George Caplan 的 建议 让 本 书 更 加 清晰 易 懂 。 


排版 约定 


本 书 使 用 的 排版 约定 如 下 。 





命令 行 代 码 、 环 境 变 量 、 语 句 和 关键 词 等 代码 文本 。 





加 粗 的 等 宽 字体 
表示 应 该 由 用 户 逐 字 输 入 的 命令 或 者 其 他 文本 。 
倾斜 的 等 宽 字体 


表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 决 定 的 值 替 换 的 文本 。 


a、 这 个 图 标 代表 小 窍门 、 建 议 或 说 明 。 

















图 标 代表 警告 信息 








示例 代码 


本 书 就 是 要 帮 读 者 解决 实际 问题 的 。 也 许 你 需要 在 自己 的 程序 或 文档 
中 用 到 本 书 中 的 代码 。 除 非 大 段 大 段 地 使 用 ， 否 则 不 必 与 我 们 联系 取 
1 因此 ， 用 本 书 中 的 几 段 代码 写成 一 个 程序 不 用 向 我 们 申请 许 

。 但 是 销售 或 者 分 发 O'Reilly 图 书 随 附 的 代码 光盘 则 必须 事先 获得 
i 引用 书 中 的 代码 来 回答 问题 也 无 需 我 们 授权 。 将 大 段 的 示例 代 
码 整 合 到 你 自己 的 产品 文档 中 则 必须 经 过 许可 。 


使 用 我 们 的 代码 时 ， 和 希望 你 能 标明 它 的 出 处 。 出 处 一 般 要 包含 书 
名 、 作 者 、 出 版 商 和 IJISBN， 例 如 : Think Stats by Allen B. Downey 
(O’Reilly). Copyright 2011 Allen B. Downey, 978-1-449-30711-0。 


如 果 还 有 其他 使 用 代码 的 情形 需要 与 我 们 沟通 ， 可 以 随时 与 我 们 联 


系 : permissions@oreilly.com。 





























Safari®? Books Online 


eo Safari Books Online (www.safaribooksonline. 
Safarl em) 是 灾变 的 数字 图 书 售 。 它 同时 以 
Books Online 图 书 和 视频 的 形式 出 版 世界 顶级 技术 和 商务 
作家 的 专业 作品 。 
Safari Books Online 是 技术 专家 、 软 件 开发 人 员 、Web 设计 师 、 商 务 人 士 
和 创意 人 士 开 展 调研 、 解 决 问题 、 学 习 和 认证 培训 的 第 一 手 资料 。 
对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 
组 合 和 灵活 的 定价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 
统 访 问 O’Reilly Media、Prentice Hall Professional、Addison-Wesley 


Professional、 Microsoft Press、Sams、Que、Peachpit Press、Focal 











Press、 Cisco Press、 John Wiley & Sons、 Syngress、 Morgan Kaufmann、 
IBM Redbooks、Packt、Adobe Press、 FT Press、 Apress、 Manning、 
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New Riders、 McGraw-Hill、Jones & Bartlett、Course Technology 以 及 
其 他 几 干 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正式 出 版 之 前 的 书稿 。 
要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 
联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 ) 有限 公司 
O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信 
息 ， 包 括 勤 误 表 、 示 例 代 码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 
http://www.oreilly.com/catalog/0636920020745 
中 文 版 地 址 : 
http://www.oreilly.com.cn/index.php?func=book&isbn=978-7-115-31737-7 
对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮 件 到 : 
bookquestions @oreilly.com 
要 了 解 更 多 O’Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 
下 网 站 ; 
http://www.oreilly.com 
我 们 在 Facebook 的 地 址 如 下 : 
http://facebook.com/oreilly 
请 关注 我 们 的 Twitter 动态 : 
http://twitter.com/oreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : 


http://www.youtube.com/oreillymedia 
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程序 页 的 统计 思维 








本 书 讨论 如 何 将 数据 转换 为 知识 。 数 据 是 廉价 的 《至少 相对 而 言 如 
此 )， 但 知识 却 异 常 宝贵 。 


我 会 介绍 以 下 三 门 相 互 关联 的 学 科 。 


。 概率 论 
主要 研究 随机 事件 。 人 们 对 某 些 事件 发 生 的 可 能 性 高 低 一 般 都 有 直 
观 的 认识 ， 所 以 未 经 特殊 训练 就 会 使 用 “可 能 "、“ 不 可 能 ”之 类 的 
词汇 。 但 本 书 会 介绍 如 何 量化 这 种 可 能 性 。 


。 统计 学 
统计 学 旨 在 根据 数据 样本 推测 总 情况 。 大 部 分 统计 分 析 都 基于 概 
率 ， 所 以 这 两 方面 的 内 容 通常 兼 而 有 之 。 

















， 计算 
量化 分 析 的 最 佳 工具 。 计 算 机 是 处 理 统计 量 的 常用 工具 。 此 外 ， 计 
算 实验 还 有 助 于 理解 概率 论 和 统计 学 中 的 概念 。 
本 书 的 主要 目的 就 是 要 让 懂 编 程 的 人 通过 编程 来 理解 概率 论 和 统计 
学 。 人 们 通常 是 从 数学 角度 讲解 概率 论 和 统计 学 ， 而 且 很 多 人 也 因 
此 学 会 了 概率 论 和 统计 学 。 但 在 概率 论 和 统计 学 中 ， 有 很 多 概念 从 
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数学 角度 很 难 理解 ， 但 如 果 用 计算 方法 就 比较 容易 。 











记得 我 妻子 剑 上 我 们 第 一 个 孩子 时 ， 我 听 到 过 这 样 一 个 问题 : 第 一 胎 
多 在 预产期 后 出 生 吗 ? 本 章 接 下 来 介绍 的 例子 就 源 自 这 个 问题 。 


1.1 第 一 个 孩子 出 生 晚 吗 

如 果 在 Google 上 搜索 这 个 问题 ， 你 会 看 到 大 量 的 相关 讨论 。 有 些 人 
说 确实 如 此 ， 也 有 人 说 这 没 根据 ， 还 有 人 持 完全 相反 的 观点 ; 第 一 个 
孩子 会 在 预产期 之 前 出 生 。 





在 这 类 讨论 中 ， 人 们 会 用 各 种 数据 来 证 明 自 己 的 说 法 ， 常 见 的 例子 如 下 。 


“我 有 两 个 朋友 最 近 都 刚 生 了 第 一 个 孩子 ， 两 个 宝宝 的 出 生 

时 间 都 比 预产期 晚 了 差不多 两 周 。” 

“我 的 第 一 个 孩子 晚 了 两 周 才 出 生 ， 我 想 我 的 第 二 个 孩子 会 

提前 两 周 。” 

“我 觉得 这 没 道理 ， 因 为 我 姐姐 是 我 妈妈 的 第 一 个 孩子 ， 她 

就 提前 出 生 了 ， 我 的 几 个 表姐 也 一 样 。” 
诸如 此 类 的 传闻 称 为 经 验 之 谈 (anecdotal evidence)， 因 为 它们 基于 非 
公开 发 表 的 数据 ， 而 且 通 常 是 个 人 感受 。 在 非 正式 场合 ， 这 类 说 辞 没 
问题 ， 所 以 这 里 并 不 是 说 上 述 观 点 不 对 。 问 题 在 于 ， 我 们 需要 更 有 说 
服 力 的 证 据 和 更 可 靠 的 结论 。 但 这 些 经 验 之 谈 显 然 做 不 到 这 一 点 ， 原 
因 如 下 。 








。 观察 的 数量 太 少 
第 一 胎 婴 儿 的 妊娠 期 比较 长 ， 但 这 种 差异 可 能 在 自然 波动 范围 内 。 
这 种 情况 下 ， 我 们 需要 比较 大 量 孕 妇 的 妊娠 期 数据 才能 判断 这 种 差 
异 是 否 真 的 存在 。 

。 选择 偏差 
第 一 胎 婴 儿 出 生 比 较 晚 的 父母 会 更 有 兴趣 加 入 这 样 的 讨论 。 这 种 对 
数据 进行 选择 的 过 程 就 会 导致 结果 不 准确 。 
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确认 偏差 

相信 这 种 说 法 的 人 会 提供 支持 示例 ， 而 怀疑 这 种 说 法 的 人 则 会 引用 
反例 。 

~ 准确 

传闻 通常 都 是 个 人 的 经 历 ， 在 记忆 、 表 述 和 复述 等 方面 都 会 不 准 
确 。 


那么 ， 更 好 的 做 法 是 什么 呢 ? 


1 


.2 统计 方 ; 


为 了 解决 上 述 经 验 之 谈 的 种 种 不 足 ， 我 们 会 运用 以 下 统计 学 手段 。 


收集 数据 
使 用 大 型 全 国 性 调查 的 数据 ， 这 些 数据 是 为 得 出 美国 人 口 方面 可 靠 
的 统计 推断 而 专门 收集 的 。 


描述 性 统计 
计算 能 总 结 数 据 的 统计 量 ， 并 评测 各 种 数据 可 视 化 的 方法 。 


探索 性 数据 分 析 

寻找 模式 、 差 异 和 其 他 能 解答 我 们 问题 的 特征 。 同 时 ， 我 们 会 检查 
不 一 致 性 ， 并 确认 其 局 限 性 。 

假设 检验 

在 发 现 明显 的 影响 时 (比如 两 个 族群 间 的 差异 )， 我 们 需要 评判 这 
种 影响 是 否 真实 ， 也 就 是 说 是 否 是 因为 随机 因素 造成 的 。 








估计 
我 们 会 用 样本 数据 推断 全 部 人 口 的 特征 。 





通过 这 些 步 又， 绕 过 各 种 陷阱 ， 我 们 就 能 得 到 更 加 合理 也 更 可 能 正确 
的 结论 。 





1.3 全 国家 庭 成 长 调查 


美国 疾病 控制 与 预防 中 心 (CDC) 从 1973 年 开始 推行 全 国家 庭 成 长 调 
查 (NSFG)， 目 的 是 收集 (美国 )“ 家 庭 的 生活 、 婚 姻 状况 、 生 育 、 避 
孕 和 男女 健康 信息 。 调 查 的 结果 用 于 …… 制 定 健康 服务 和 健康 教育 计划 ， 
以 及 对 家 庭 、 生 育 和 健康 的 统计 研究 ”。、 


我 们 会 利用 调查 收集 的 数据 来 研究 诸如 “第 一 个 小 孩 是 否 出 生得 较 
晚 ” 之 类 的 问题 。 为 了 有 效 使 用 这 些 数据 ， 我 们 需要 理解 这 个 调查 是 
怎么 设计 的 。 





NSFG 是 一 个 横断 面 研 究 (cross-sectional study)， 意 思 就 是 它 的 
数据 是 一 群 人 在 某 个 时 间 点 的 情况 。 另 一 种 常见 方法 是 纵 贯 研究 
(longitudinal study) ， 就 是 在 一 段 时 间 内 反复 观察 同一 群 人 。 


NSFG 已 经 进行 了 7 次， 每 次 称 为 一 个 周期 (cycle) 。 我 们 会 使 用 来 自 
Cycle 6 的 数据 ， 这 些 数据 是 在 2002 年 1 月 到 2003 年 3 月 间 收 集 的 。 


NSFG 的 目的 是 得 到 关于 人 口 情 况 的 一 些 结论 ， 调 查 对 象 是 15 到 44 
岁 的 美国 人 。 


参与 调查 的 人 称 为 被 调查 者 (respondent), 一 组 被 调查 者 就 称 为 队 
列 (cohort)。 通 常 ， 横 断面 研究 意味 着 具有 代表 性 ， 即 目标 人 群 中 的 
每 一 个 人 都 有 同等 的 几率 参与 调查 。 当 然 ， 实 际 很 难 实现 这 种 理想 状 
况 ， 但 执行 调查 的 人 会 尽 可 能 地 做 到 这 一 点 。 


NSFG 不 具有 代表 性 ， 而 是 有 意 进 行 了 过 采样 (oversample)。 设 计 者 
所 调查 的 西班牙 帘 、 非 毅 美 国人 和 青少年 的 比例 都 高 于 他 们 在 美国 人 
口中 的 比例 。 过 采样 这 些 人 群 是 为 了 确保 其 中 的 被 调查 者 数量 够 大 ， 
从 而 得 到 有 效 的 统计 推断 。 


当然 ， 过 采样 增 大 了 根据 调查 结果 推断 全 体 人 口 结论 的 难度 。 稍 候 我 
们 会 继续 讨论 这 一 点 。 

















注 1: 参见 http://cdc.gov/nchs/nsfg.htm。 
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习题 1-1 
尽管 NSFG 已 经 进行 了 7 次， 但 它 并 不 是 纵 贯 研究 。 阅 读 维基 百科 页 
面 aa 和 http://wikipedia.org/ 
wiki/Longitudinal_study 可 以 弄 清 楚 原 因 。 


习题 1-2 
这 个 练习 需要 从 NSFG 下 载 数 据 ， 本 书 接 下 来 会 用 到 这 些 数据 。 


| 


. 打开 http:/Wthinkstats.com/nsfg.html1， 了 阅读 数据 的 使 用 协议 ， 然 后 点 
击 “I accept these terms”( 假 设 你 确实 同意 )。 


MD 


. 下载 2002FemResp.dat.gz 和 2002FemPreg.dat.gz 两 个 文件 。 前 者 是 
被 调查 者 文件 ， 每 一 行 代 表 一 个 被 调查 者 ， 总 共 7643 个 女性 被 调 
查 者 。 后 者 是 各 个 被 调查 者 的 怀孕 情况 


.调查 的 在 线 资料 地 址 : http:Wwww.icpsr.umich.edu/nsfg6 。 浏 览 左 
侧 导 航 栏 中 调查 的 各 部 分 ， 大 致 了 解 一 下 其 中 的 内 容 。 还 可 以 在 
http://cdc.gov/nchs/data/nsfg/nsfg_2002_questionnaires.htm 上 阅读 调 
查 问卷 的 内 容 。 


本 书 的 配套 网 站 提供 了 处 理 NSFG 数据 文件 的 代码 。 从 http:// 
thinkstats.com/survey.py 下 载 ， 然 后 在 放置 数据 文件 的 目录 中 运行 。 
程序 会 读 取 数据 文件 ， 然 后 会 显示 每 个 文件 的 行 数 : 


[SS 








Number of respondents 7643 
Number of pregnancies 13593 


5. 浏览 一 下 代码 ， 大 致 了 解 一 下 其 功能 。 下 一 节 会 详细 介绍 。 


1.4 表 和 记录 


诗人 、 哲 学 家 Steve Martin 曾 说 : 


“Oeuf” 就 是 egg，“chapeau” 就 是 hat。 好 像 所 有 的 东西 在 法 
语 中 都 跟 在 英语 中 的 叫 法 不 一 样 。 
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跟 法 语 一 样 ， 数 据 库 程序 员 的 语言 也 跟 我 们 的 日 常 语言 稍 有 不 同 。 
为 我 们 要 谈 到 数据 库 ， 所 以 有 必要 学 习 一 些 专业 术语 。 


被 调查 者 文件 中 的 每 一 行 都 表示 一 个 被 调查 者 。 这 行 信 息 称 为 一 条 记 
录 (record)， 组 成 记录 的 变量 称 为 字段 (field)， 若 干 记录 的 集合 就 
组 成 了 一 个 表 (table)。 


看 一 下 survey.py 中 的 代码 ， 就 会 看 到 Record 和 Table 这 两 个 类 的 
定义 ， 前 者 是 代表 记录 的 对 象 ， 后 者 则 是 表示 表 的 对 象 。 


Record 有 两 个 子 类 ， 分 别 是 Respondent 和 Pregnancy， 两 者 分 别 
是 被 调查 者 和 怀孕 的 记录 。 目 前 这 些 类 和 暂时 还 是 空 的 ， 其 中 还 没有 用 
于 初始 化 其 属性 的 init 方法 。 我 们 会 用 Table .MakeRecord 方 法 将 
一 行文 本 转换 成 一 个 Record 对象。 

Table 也 有 两 个 子 类 Respondents 和 Pregnancies。 这 两 个 类 的 
init 方法 设置 了 数据 文件 的 默认 名 称 和 要 创建 的 记录 的 类 型 。 每 个 
Table 对 象 都 有 一 个 records 属性 ， 是 一 个 Record 对 象 的 列表 。 








每 个 Table 的 GetFields 方法 返回 一 个 指定 记录 字段 的 元 组 (tuple) 
列表 ， 这 些 字段 就 是 Recora 对象 的 属性 。 


例如 ， 下 面 是 Ppregnancies.GetFields: 


def GetFields (self): 
return [ 

(veaselg.,. 1; L122, Ln) 
prglength', 275, 276, int), 
outcecome', 277,; 277, int), 
birthord., 278, 279, Tnt), 
'finalwgt', 423, 440, float), 


下 
(! 
( 
( 
] 
第 一 个 元 组 的 意思 从 第 1 列 到 第 12 列 是 caseid 字段 ， 且 类 型 为 整 
数 。 每 个 元 组 包含 如 下 信息 。 
。 field 
保存 该 字段 的 属性 的 名 称 。 大 部 分 情况 下 ， 我 使 用 NSFG 编码 手册 
中 的 名 称 ， 全 部 用 小 写 。 
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start 
该 字段 的 起 始 列 编号 。 例 如 ，caseia 的 起 始 编号 是 1。 可 以 在 
NSFG 编码 手册 中 查询 这 些 编 写 : http:/www.icpsr.umich.edu/nsfg6/。 





end 
该 字段 的 结束 列 编 号 。 例 如 ，caseid 的 结束 列 编号 是 12。 跟 
Python 中 不 一 样 ， 这 里 的 结束 列 也 是 该 字段 的 一 部 分 。 


转换 函数 

将 字符 串 转 换 成 其 他 类 型 的 函数 。 可 以 用 内 置 的 国 数 ， 比 如 int 和 
float, 也 可 以 使 用 用 户 自 定义 的 函数 。 如 果 转 换 失 败 , 属性 的 值 就 
会 是 字符 串 'NA' 。 如 果 某 个 字段 不 需要 转换 ， 可 以 使 用 idaentity 
国 数 或 是 str 函数 。 





从 pregnancy 记录 中 可 以 得 到 以 下 变量 。 


caseid 

被 调查 者 的 整数 ID。 

prglength 

怀孕 周期 ， 单 位 是 周 。 

outcome 

怀孕 结果 的 整数 代码 。 代 码 1 表示 活 婴 。 

birthord 

正常 出 生 的 婴儿 的 顺序 。 例 如 ， 第 一 胎 婴 儿 的 编号 是 1。 如 果 没 有 
正常 出 生 ， 该 字段 为 空 。 





finalwgt 
被 调查 者 的 统计 权重 。 这 是 一 个 浮 点 值 ， 表 示 这 名 被 调查 者 所 代表 
的 人 群 在 美国 总 人 口中 的 比例 。 过 采样 人 群 的 权重 偏 低 。 








如 果 你 仔细 阅读 编码 手册 ， 就 会 发 现 这 些 变量 大 部 分 都 经 过 了 重 编 码 
(recode)， 也 就 是 说 这 并 不 是 调查 所 采集 的 原始 数据 ， 而 是 根据 原始 
数据 计算 出 来 的 。 





例如 ， 第 一 胎 活 婴 的 prglength 在 原始 数据 中 有 变量 wksgest (妊娠 周 
数 ) 时 就 等 于 该 变量 的 值 ， 否则 就 会 用 mosgest * 4.33 (妊娠 月 数 乘 以 
每 个 月 的 平均 周 数 ) 估计 出 来 。 


重 编码 通常 遵循 数据 一 致 性 和 准确 性 原则 。 除 非 有 特别 原因 一 定 要 使 
用 原始 数据 ， 否 则 就 应 该 直接 使 用 重 编码 后 的 数据 。 


你 可 能 还 发 现 了 Pregnancies 有 Recode 方法 ， 用 来 做 一 些 其 他 的 检查 
和 重 编码 工作 。 


习题 1-3 
在 这 个 练习 中 ， 我 们 会 编写 一 个 程序 来 看 看 Pregnancies 表 中 的 数据 。 


| 


MD 


(LD 


小 


.在 survey.py 和 数据 文件 的 目录 中 创建 一 个 first.py 文件 ， 然 后 将 下 


面 的 代码 输入 或 复制 到 文件 中 : 


import survey 

table = survey.Pregnancies () 

table.ReadRecords () 

print 'Number of pregnancies', lenl(table.records) 


结果 应 该 是 13 593 条 怀孕 记录 。 


. 编写 一 个 循环 遍历 表 〈table)， 计 算 其 中 活 婴 的 数量 。 查 阅 临床 结 





果 (outcome) 的 文档 ， 确 认 你 的 结果 跟 文档 中 的 总 结 一 致 。 





. 修改 这 个 循环 ， 将 活 婴 的 记录 分 成 两 组 : 一 组 是 第 一 胎 出 生 ; 另 一 





组 是 其 他 情况 。 再 看 一 些 出 生 顺 序 (birthord) 的 文档 ， 看 看 你 
的 结果 跟 文 档 中 的 结果 是 否 一 致 。 

在 处 理 新 的 数据 集 时 ， 这 种 检查 对 于 发 现 数据 中 的 错误 和 不 一 致 
性 、 检 查 程 序 中 的 错误 以 及 检验 对 字段 编码 方式 的 理解 是 否 正确 等 
都 是 很 有 用 的 。 








.分 别 计算 第 一 胎 婴 儿 和 其 他 婴儿 的 平均 怀孕 周期 〈 单 位 是 周 ) 。 两 


组 之 间 有 差异 吗 ? 差异 有 多 大 ? 


从 http://thinkstats.com/first.py 可 下 载 这 个 练习 的 答案 。 
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1.5 显著 性 

在 前 面 的 练习 中 ， 我 们 比较 了 第 一 胎 婴 儿 和 其 他 婴儿 的 妊娠 期 。 如 果 

一 切 顺 利 ， 读 者 会 发 现 第 一 胎 婴 儿 的 出 生 时 间 比 其 他 婴儿 的 出 生 时 间 

平均 晚 13 个 小 时 。 

类 似 这 样 的 差异 称 为 直观 效应 (apparent effect) ， 意 思 就 是 似乎 发 生 

了 有 意思 的 事情 ， 但 还 不 确定 。 我 们 还 需要 考虑 以 下 问题 。 

。 如 果 两 组 的 均值 不 一 样 , 其 他 汇总 统计 量 如 何 , 比如 中 位 数 和 方差 ? 
我 们 能 更 精确 地 描述 它们 之 间 的 差异 吗 ? 

。 有 没有 可 能 这 两 组 实际 上 是 一 样 的 ， 而 我 们 所 观察 到 的 这 种 差异 只 

是 随机 产生 的 ?如 果 是 ， 那 这 个 结论 就 不 是 统计 显著 的 。 

这 种 直观 效应 有 没有 可 能 是 因为 选择 偏差 或 是 实验 设置 中 的 错误 导 

致 的 ?如 果 是 ， 那 么 这 种 直观 效应 就 是 人 为 的 ， 也 就 是 我 们 意外 创 

造 的 ， 而 并 非 发 现 了 事实 。 


本 书 接 下 来 的 大 部 分 内 容 都 是 为 了 回答 这 些 问 题 。 



































习题 1-4 
学 习 统 计 学 的 最 好 方法 就 是 从 一 个 自己 感 兴趣 的 项 目 开 始 。 有 没有 
“第 一 胎 婴 儿 出 生 较 晚 ” 这 类 吸引 你 的 问题 来 研究 ? 


思考 自己 感 兴趣 的 问题 ， 例 如 传统 观念 、 有 和 争议 的 话题 或 是 有 社会 影 
响 的 问题 ， 看 看 你 能 否 将 这 些 问 题 转换 成 统计 学 问题 。 


寻找 能 解决 该 问题 的 数据 。 国 外 政府 是 很 好 的 数据 来 源 ， 因 为 公共 
研究 的 数据 通常 都 是 免费 的 *。 另 一 个 查找 数据 的 好 去 处 是 Wolfram 
Alpha， 其 中 收集 了 很 多 经 过 验证 的 高 质量 的 数据 集 ， 网 址 是 http:/ 
wolframalpha.com。Wolfram Alpha 的 搜索 结果 是 有 版 权限 制 的 ， 在 使 
用 之 前 应 该 阅读 一 下 协议 。 





注 2: 在 撰写 这 段 内 容 的 时 候 ， 英 国 某 法 院 规 定 “ 信 息 自由 法 案 ”(Freedom of Information 
Act) 也 适用 于 科学 研究 数据 。 























Google 和 其 他 的 一 些 搜索 引擎 也 能 帮 你 寻找 数据 ， 但 网 络 上 各 种 资源 
的 质量 高 低 不 一 ， 判 断 起 来 不 容易 。 

如 果 发 现 已 经 有 人 回答 了 你 的 问题 ， 要 仔细 看 看 回答 是 否 合理 。 数 据 
和 分 析 中 的 缺陷 可 能 会 导致 结论 不 可 靠 。 如 果 是 这 样 ， 你 应 该 采用 不 
同 的 方法 来 分 析 数 据 ， 或 者 是 寻找 其 他 更 好 的 数据 来 源 。 

如 果 已 发 表 的 论文 回答 了 你 的 问题 ， 那 就 应 该 能 弄 到 原始 数据 ， 很 多 
作者 都 会 在 网 上 提供 。 但 如 果 数 据 涉及 个 人 隐私 ， 最 好 联系 一 下 作者 ， 
告诉 他 你 要 如 何 使 用 数据 ， 或 是 接受 特定 的 使 用 协议 。 坚 持 到 底 ! 


1.6 术语 


。 经 验 之 谈 (anecdotal evidence) 


个 人 随意 收集 的 证 据 ， 而 不 是 通过 精心 设计 并 经 过 研究 得 到 的 。 











。 直观 效应 (apparent effect) 
表示 发 生 了 某 种 有 意思 的 事情 的 度量 或 汇总 统计 量 。 


。 人 为 (artifact) 
由 于 偏差 、 测 量 错误 或 其 他 错误 导致 的 直观 效应 。 


。 队列 (cohort) 
一 组 被 调查 者 。 





。 横断 面 研究 (cross-sectional study) 
收集 群体 在 特定 时 间 点 的 数据 的 研究 。 
。 字段 (field) 
数据 库 中 组 成 记录 的 变量 名 称 。 
。 纵 贯 研究 (longitudinal study) 
跟踪 群体 ， 随 着 时 间 推移 对 同一 组 人 反复 采集 数据 的 研究 。 


。 过 采样 (oversampling) 


为 了 避免 样本 量 过 少 ， 而 增加 某 个 子 群体 代表 的 数量 。 
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总 体 (population ) 
要 研究 的 一 组 事物 ， 通 常 是 一 群 人 ， 但 这 个 术语 也 可 用 于 动物 、 蔬 
菜 和 矿产 。 


原始 数据 (raw data) 
未 经 或 只 经 过 很 少 的 检查 、 计 算 或 解读 而 采集 和 重 编码 的 值 。 


重 编码 (recode) 
通过 对 原始 数据 进行 计算 或 是 其 他 逻辑 处 理 得 到 的 值 。 





记录 (record) 

数据 库 中 关于 一 个 人 或 其 他 对 象 的 信息 的 集合 。 

代表 性 (representative) 

如 果 人 群 中 的 每 个 成 员 都 有 同等 的 机 会 进入 样本 ， 那 么 这 个 样本 就 
具有 代表 性 。 


被 调查 者 (respondent) 
参与 调查 的 人 。 








样本 (sample) 
总 体 的 一 个 子 集 ， 用 于 收集 数据 。 


统计 显著 (statistically significant) 
若 一 个 直观 效应 不 太 可 能 是 由 随机 因素 引起 的 ， 就 是 统计 显著 的 。 





汇总 统计 量 (summary statistic) 
通过 计算 将 一 个 数据 集 归结 到 一 个 数字 (或 者 是 少量 的 儿 个 数字 )， 
而 这 个 数字 能 表示 数据 的 某 些 特点 。 


表 (table) 
数据 库 中 若干 记录 的 集合 。 
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第 2 章 


描述 性 统计 量 





2.1 均值 和 平均 值 
前 一 章 提 到 了 三 个 汇总 统计 量 ， 均 值 、 方 差 和 中 位 数 ， 但 没有 解释 它 
们 的 具体 含义 。 在 介绍 其 他 内 容 之 前 ， 我 们 先 来 看 看 这 三 个 统计 量 。 
如 果 有 一 个 包含 n 个 值 的 样本 x;， 那 么 它们 的 均值 就 等 于 这 些 值 的 
总 和 除 以 值 的 数量 ， 即 : 

A= Fx 
均值 (mean) 和 平均 值 (average) 在 很 多 情况 下 可 以 不 加 区 分 地 使 
用 , 但 这 里 还 要 强调 一 下 两 者 的 区 别 : 
。 样本 的 “均值 ”是 根据 上 述 公 式 计 算出 来 的 一 个 汇总 统计 量 ， 


。“ 平 均值 ”是 若干 种 可 以 用 于 描述 样本 的 典型 值 或 集中 趋势 《central 
tendency) 的 汇总 统计 量 之 一 。 











有 时 候 均 值 可 以 很 好 地 摘 述 一 组 值 。 例 如 ， 苹 果 大 小 都 差不多 (至少 
在 超市 里 出 售 的 苹果 都 是 如 此 )， 因 此 ， 如 有 果 我 买 了 6 个 人 苹果， 总 重 
量 是 3 镑 ， 那 么 就 可 以 说 每 个 苹果 的 重量 大 概 是 半 磅 。 


但 是 南瓜 就 不 一 样 了 。 假 如 我 在 花园 里 种 了 一 些 蔬菜 ， 到 了 收获 的 时 
候 ， 我 收获 了 三 个 装饰 用 的 南瓜 ， 每 个 1 磅 重 ， 两 个 制 南瓜 饼 的 南 
瓜 ， 每 个 3 磅 重 ， 还 有 一 个 重 达 591 磅 的 大 西洋 巨型 南瓜 。 这 组 样本 
的 均值 是 100 磅 ， 但 如 果 我 告诉 你 :“ 我 种 的 南瓜 的 平均 重量 是 100 
磅 。” 那 就 有 问题 了 ， 至 少 这 也 是 一 种 误导 。 


在 这 个 例子 中 ， 平 均值 是 没有 意义 的 ， 因 为 “典型 ”的 南瓜 是 不 存 
在 的 。 








2.2 方差 


既然 一 个 值 不 能 概括 南瓜 的 重量 ， 那 两 个 值 应 该 会 好 一 些 : 均值 和 





均值 是 为 了 描述 集中 趋势 ， 而 方差 则 是 描述 分 散 情 况 。 一 组 值 的 方差 


等 于 
中 = 了 盖 休 1; 


其 中 x 叫做 离 均 差 (deviation from the mean)， 因 此 方差 为 该 偏差 
的 方 均值 ， 这 也 是 用 o 表示 的 原因 。 方 差 的 平方 根 o 叫做 标准 差 。 
方差 本 身 不 太 好 解释 ， 其 中 一 个 问题 就 是 它 的 单位 很 奇怪 。 在 南瓜 重 
量 的 例子 里 ， 度 量 单 位 是 磅 ， 所 以 方差 的 单位 就 是 磅 的 平方 。 标 准 差 
的 含义 就 明确 多 了 ， 在 上 例 中 单位 为 磅 。 








习题 2-1 
先 从 http://thinkstats.com/thinkstats.py 下 载 脚 本 文件 ， 其 中 的 函数 在 
整 本 书 中 都 会 有 用 。 这 些 函 数 的 文档 可 以 参考 这 里 http://thinkstats. 


com/thinkstats.html。 





编写 一 个 Pumpkin 国 数 ， 并 调用 thinkstats.py 中 的 函数 计算 上 一 节 中 
南瓜 重量 的 均值 、 方 差 和 标准 差 。 








习题 2-2 
重用 survey.py 和 first.py 中 的 代码 计算 第 一 胎 婴 儿 的 怀孕 周期 和 其 他 
婴儿 的 怀孕 周期 的 标准 差 。 这 两 组 数据 的 分 散 情况 一 样 吗 ? 


跟 标准 差 的 差异 相 比 ， 均 值 的 差异 有 多 大 ?对 于 该 差异 的 统计 显著 
性 ， 这 个 比较 说 明了 什么 ? 


如 果 以 前 接触 过 方差 ， 你 会 发 现 方差 计算 公式 中 的 除数 是 n-1， 而 不 是 
n， 这 个 统计 量 叫 做 “样本 方差 ~， 用 于 通过 样本 估计 总 体 的 方差 。 第 8 
章 我 们 会 再 次 介绍 这 个 概念 。 


2.3 分 布 


汇总 统计 量 简 单 明 了 ,但 风险 也 大 ， 因 为 它们 很 有 可 能 会 掩盖 数据 的 

真相 。 男 一 种 方法 就 是 看 数据 的 分 布 (distribution)， 它 描述 了 各 个 值 

出 现 的 频繁 程度 。 

表示 分 布 最 常用 的 方法 是 直方 图 (histogram)， 这 种 图 用 于 展示 各 个 

值 出 现 的 频数 或 概率 。 

在 这 里 ， 频 数 指 的 是 数据 集中 一 个 值 出 现 的 次 数 ， 跟 声音 的 音 高 和 无 

线 电信 号 的 调频 没有 关系 。 概 率 就 是 频数 除 以 样本 数量 n。 

在 Python 中 ， 计 算 频 数 最 简单 的 方法 就 是 用 字典 。 给 定 一 个 序列 七 : 
hist = {} 


EGE i 二 : 
hist[x] = hist.get (x, 0) + 1 


得 到 的 结果 是 一 个 将 值 映射 到 其 频数 的 字典 。 将 其 除 以 n 即 可 把 频数 
转换 成 概率 ， 这 称 为 归 一 化 (normalization) : 

n = float (len(t)) 

pmf = {} 


for x, freq in hist.items() : 
pmf[x] = freq / n 


归 一 化 之 后 的 直方 图 称 为 PMF (Probability Mass Function， 概 率 质 量 























国 数 ) ， 这 个 国 数 是 值 到 其 概率 的 映射 〈 习 题 6-5 中 会 介绍 “质量 ”的 
含义 )。 

将 Python 中 的 字典 称 为 国 数 可 能 会 让 部 分 读者 感到 困惑 。 在 数学 中 ， 
函数 就 是 一 组 值 到 另 一 组 值 的 映射 。 在 Python 中 ， 我 们 通常 用 函数 对 
象 表 示 数 学 中 的 函数 ， 但 这 个 例子 中 用 的 是 字典 (字典 也 被 称 为 “ 映 
射 "， 所 以 称 其 为 “函数 ”也 是 可 以 理解 的 )。 


2.4 直方 图 的 表示 


我 编写 了 一 个 名 叫 Pmf.py 的 Python 模块 ， 其 中 定义 了 用 于 表示 直方 图 
的 Hist 对 象 ， 以 及 表示 PMF 的 pmf 对 象 。 可 从 http://thinkstats.com/ 
Pmf.html 阅读 它 的 文档 ， 从 http://thinkstats.com/Pmf.py 下 载 源 代 码 。 








MakeHistFromList 畏 数 接受 一 个 序列 ， 并 返回 一 个 新 的 Hist 对 象 。 
可 以 在 Python 的 交互 模式 下 测试 一 下 : 

>>> import Pmf 

>>> hist = Pmf .MakeHistFromList([1, 2, 2, 3, 5]) 


>55 print. Hist 
<Pmf .Hist object at Oxb76cf68c> 


Pmf .Hist 的 意思 是 这 个 对 象 属于 pmf 模块 中 定义 的 Hist 类 。 一 般 
情况 下 ， 书 中 的 类 和 国 数 名 首 字母 大 写 ， 变 量 名 首 字母 小 写 。 


Hist 对 象 提供 了 查找 值 及 其 概率 的 方法 。Freq 方 法 接收 一 个 值 ， 并 
返回 它 的 频数 : 








>>> hist.Freq(2) 
2 


如 果 所 查找 的 值 不 存在 ， 那 么 频数 就 是 0。 





>>> hist.Freq(4) 
0 


Values 方法 会 返回 未 经 排序 的 Hist 类 的 对 象 的 所 有 值 : 


>>> hist.Values () 
[Yl; 5 37 2 
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要 按 序 遍 历 这 些 值 ， 可 以 用 内 置 的 sorted 函数 : 


for val in sorted(hist.Values()): 
print val，hist.Fredq(val) 


如 果 要 查找 所 有 的 频数 ， 用 Ttems 会 更 高 效 。 它 会 返回 一 组 未 经 排序 
的 值 一 频数 对 : 


for val, freqg in hist.Items(): 
print val, freq 


习题 2-3 

一 个 分 布 的 众 数 就 是 它 的 最 频繁 值 ( 见 http://wikipedia.org/wiki/ 
Mode_(statistics))。 编 写 一 个 Mode 函数 ， 以 Hist 对 象 为 参数 ， 返 回 
最 频繁 值 。 

再 来 一 个 更 有 挑战 的 ， 编 写 一 个 AllModes 函数 ， 参 数 还 是 Hist 对 
象 ， 但 返回 的 是 按 频 数 降序 排列 的 值 一 频数 对 。 提 示 : operator 模 
块 中 有 个 itemgetter 函数 可 以 按键 值 排序 。 


2.5 绘制 直方 图 


Python 中 有 不 少 画 图 的 包 。 这 里 我 们 要 演示 的 是 pyplot， 来 自 
matplotlip (http:/matplotlib.sourceforge.net) 。 





很 多 Python 安装 程序 中 都 带 有 这 个 包 。 启 动 Python 解释 器 ， 输 入 以 
下 命令 就 可 以 查看 是 否 安 装 了 这 个 包 : 

import matplotlib.pyplot as pyplot 

pyplot .pie'( [1,2,3]) 

pyplot.show() 
如 果 安 装 了 matplotlib， 就 应 该 能 看 到 一 个 人 饼 图 ， 否 则 就 说 明 还 没 
有 安装 。 


直方 图 和 概率 质量 函数 通常 画 成 条 状 图 。pyplot 中 绘制 条 状 图 的 图 
数 是 par。Hist 对 象 中 有 一 个 Render 方法 ,会 返回 一 个 排序 后 的 值 



































列表 ， 以 及 相应 的 频数 ， 下 面 是 bar 函数 所 需 的 参数 : 


>>> vals, freqs = hist.Render() 

>>> rectangles = pyplot.bar(vals, freqs) 

>>> pyplot.show!() 
我 编写 了 一 个 myplot.py， 提 供 了 绘制 直方 图 的 函数 、 概 率 质 量 函 数 ， 
以 及 你 将 要 看 到 的 其 他 对 象 。 它 的 文档 在 thinkstats.com/myplot.html 
上 上， 从 thinkstats.com/myplot.py 可 以 下 载 到 代码 。 或 者 你 喜欢 的 话 ， 
也 可 以 直接 用 pyplot， 可 以 在 网 上 找到 它 的 文档 。 


图 2-1 是 第 一 胎 婴 儿 和 非 第 一 胎 婴 儿 怀 孕 周 期 直方 图 。 























直方 图 








45 














图 2-1: 怀孕 周期 直方 图 
直方 图 很 有 用 ， 因 为 它 可 以 非常 直观 地 展现 数据 的 以 下 特征 。 








分 布 中 出 现 次 数 最 多 的 值 叫做 众 数 。 在 图 2-1 中 ， 众 数 显然 是 在 39 
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周 ， 众 数 是 最 适合 描述 典型 值 的 汇总 统计 量 。 


。 形状 
以 众 数 为 中 心 ， 整 个 分 布 是 不 对 称 的 ;在 右 侧 下 降 很 快 ， 而 在 左 侧 
下 降 比较 慢 。 从 医学 的 角度 来 看 ， 这 是 对 的 。 婴 儿 经 常会 提前 来 到 
这 个 世界 ， 但 却 很 少 有 采 在 妈妈 肚子 里 超过 42 周 的 。 此 外 ， 分 布 
的 右 侧 到 了 42 周 就 被 截断 了 ， 因 为 到 了 这 个 时 候 医生 会 采取 必要 
的 措施 。 


。 异常 值 
远离 众 数 的 值 叫做 异常 值 (outlier)。 其 中 有 些 只 是 罕见 情况 ， 比 
如 30 周 出 生 的 婴儿 。 但 有 些 很 有 可 能 是 汇总 或 者 记录 数据 的 某 个 
环节 中 的 失误 导致 的 。 


直方 图 直观 地 展示 了 数据 的 一 些 特征 ， 但 通常 用 来 比较 两 个 分 布 意义 
不 大 。 在 这 个 例子 中 ,“ 第 一 胎 婴 儿 ” 的 数量 要 比 “ 非 第 一 胎 上 婴儿 ” 
的 数量 少 。 因 此 ， 直 方 图 中 某 些 明显 差异 是 由 样本 数量 造成 的 。 可 以 
用 PMF 来 解决 这 个 问题 。 


2.6 表示 概率 质量 函数 


Pmf.py 中 定义 了 用 于 表示 概率 质量 函数 的 pmf 类 。 这 里 稍微 解释 一 
下 : Pmf 是 模块 的 名 称 ， 也 是 类 的 名 称 ， 因 此 这 个 类 的 全 称 是 Pmf. 
Pmf。pmf 则 通常 被 我 用 做 变量 名 。 在 正文 中 ， 我 用 PMF 指 代 通 常 意义 
上 的 概率 质量 函数 ， 这 个 简写 与 我 的 实现 无 关 。 

















用 MakePmfFromList 方法 创建 pmf 对 象 ， 其 参数 是 一 组 值 : 


>>> import Pmf 

>>> pmf = Pmf.MakePmfFromList([1, 2, 2, 3, 5]) 

>>> print pmf 

<Pmf .Pmf object at Oxb76cf68c> 
Pmf 对 象 跟 Hist 对 象 有 很 多 类 似 的 地 方 ， 两 者 的 Values 方法 和 
Items 方法 是 一 样 的 。 最 大 区 别 在 于 Hist 是 将 值 映射 到 一 个 用 整数 
表示 的 数量 ， 而 Pmf 是 将 值 映 射 到 一 个 用 浮 点 数 表示 的 概率 。 
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用 prob 查看 给 定 值 的 概率 : 


>>> pmf .Prob (2) 
0.4 


可 以 通过 增加 某 个 值 的 概率 来 修改 现 有 的 Pmf: 


S55 Pnf. Incr(2, 02) 
>>> pmf .Prob (2) 
0.6 


还 可 以 将 概率 扩大 若干 倍 : 


>>> pmf .Mult (2, 0.5) 
>>> pmf .Prob (2) 
a | 


如 果 修 改 Pmf， 有 可 能 导致 整个 PMEF 不 再 是 归 一 化 的 ， 也 就 是 说 所 有 
概率 的 总 和 不 再 等 于 1。 可 以 用 Total 方法 检查 一 下 ， 该 方法 会 返回 
所 有 概率 的 总 和 2 





>>> Pmf .Total () 
0.9 


要 重新 归 一 化 ， 调 用 Normalize: 


>>> pmf .Normalize() 
>>> pmf .Total () 
于 48 


Pmf 对 象 提供 的 copy 方法 可 以 复制 pmf 对 象 ， 修 改 复制 出 来 的 Pmf 
对 象 不 会 影响 原来 的 数据 。 





习题 2-4 
根据 维基 百科 :“ 生 存 分 析 是 统计 学 的 一 个 分 支 ， 涉 及 生物 体 的 死亡 
和 机 械 系统 故障 。” 详 见 http://wikipedia.org/wiki/Survival_analysis。 
作为 生存 分 析 的 一 部 分 ， 计 算 剩 余 使 用 寿命 《例如 某 个 机 械 部 件 还 能 
用 多 长 时 间 ) 是 大 有 用 处 的 。 如 果 知 道 使 用 寿命 的 分 布 和 部 件 的 使 用 
时 间 ， 就 可 以 计算 出 剩余 使 用 寿命 的 分 布 。 
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编写 一 个 函数 RemainingLifetime， 参 数 是 表示 使 用 寿命 的 pmf 对 
象 和 使 用 时 间 ， 返 回 一 个 表示 剩余 使 用 寿命 分 布 的 Pmf 对 象 。 


习题 2-5 
2.1 节 介 绍 过 ， 通 过 累加 各 个 元 素 并 除 以 n 可 以 算出 样本 的 均值 。 对 
于 给 定 的 PMF， 也 可 以 算出 均值 ， 但 计算 过 程 上 咯 有 不 同 : 


H = 2 pa 
其 中 x 是 PMF 中 的 值 ，p;=PMF(x;)。 同 样 ， 也 可 以 计算 方差 : 
0 = p01) 


编写 两 个 国 数 ，PmfMean 和 pmfVvar， 两 者 的 参数 都 是 一 个 Pmf 对 象 ， 
分 别 计算 它 的 均值 和 方差 。 看 一 看 结果 是 否 跟 Pmf.py 中 的 Mean 和 
Var 方法 的 结果 一 致 。 


2.7 绘制 概率 质量 函数 

绘制 Pmf 的 常用 方法 有 以 下 两 种 。 

。 采用 柱状 图 ， 可 以 用 pyplot.bar 或 myplot.Hist。 如 果 Pmf 中 的 值 不 
多 ,柱状 图 就 比较 合适 。 

。 采用 折线 图 ， 可 以 用 pyplot.plot 或 者 myplot.Pmf。 如 果 Pmf 中 的 
值 较 多 ， 且 比较 平滑 ， 折 线 图 就 比较 合适 。 


图 2-2 用 柱状 图 展示 了 怀孕 周期 的 PMF。 借 助 PMF， 我 们 可 以 更 清晰 
地 看 出 分 布 的 差异 。 第 一 胎 婴 儿 似乎 较 少 按时 出 生 (39 周 ) ， 而 倾向 
于 比 这 个 时 间 晚 一 些 (41 周 或 42 周 )。 




















生成 本 章 图 片 的 代码 可 以 从 http://thinkstats.com/descriptive.py 下 载 。 
运行 代码 需要 安装 其 所 需 的 模块 和 NSFG 的 数据 (参见 1.3 市 )。 


注意 : pyplot 中 的 hist 函数 接受 一 个 序列 ， 然 后 计算 其 直方 图 ， 并 
画 出 来 。 因 为 我 用 的 是 Hist 对 象 ， 所 以 通常 不 使 用 pyplot .hist。 
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图 2-2: 怀孕 周期 的 PMF 


2.8 异常 值 

异常 值 就 是 远离 集中 趋势 的 值 。 异 常 值 有 可 能 是 采集 和 处 理 数据 过 程 
中 的 错误 导致 的 ， 也 有 可 能 是 罕见 的 正确 结果 。 有 时 对 这 些 异 常 值 修剪 
(trim) 既 恰 当 又 十 分 有 用 。 

在 活 婴 的 怀孕 周期 数据 中 ， 最 低 的 十 个 值 是 {0, 4, 9, 13, 17, 17, 18, 19， 
20, 21}。 低 于 20 周 的 值 肯 定 是 错误 的 ， 只 有 高 于 30 周 的 值 正确 的 可 
能 性 才 比 较 大 。 介 于 两 者 之 间 的 值 就 很 难 解释 了 。 


另 一 方面 ， 最 大 的 几 个 值 分 别 是 








weeks count 


43 148 
44 46 
45 10 
46 1 





强调 一 下 ， 有 些 值 很 有 可 能 
前 ( 


错误 的 ， 但 不 好 说 。 一 种 处 理 方法 是 对 一 定 
比例 的 最 高 和 最 低 值 修 见 


是 
参见 http://wikipedia.org/wiki/Truncated_mean)。 
2.9 其 他 可 视 化 方法 

直方 图 和 PMEF 在 探索 性 数据 分 析 中 很 有 用 : 如 果 你 对 数据 的 含义 有 
基本 认识 ， 设 计 一 个 能 展示 直观 效应 的 可 视 化 方法 通常 会 有 所 帮助 。 
在 NSFG 数据 中 ， 明 显 的 分 布 差 异 出 现在 众 数 附 近 。 所 以 有 必要 放大 
图 的 这 一 部 分 ， 变 换 一 下 数据 ， 从 而 突出 差异 。 

图 2-3 中 是 PMF 在 35 ~ 45 周 间 的 差异 。 将 结果 乘 以 100， 表 示 差 异 的 
百分比 。 








PMF 之 间 的 差异 


100 (PMF sm — PMEF 4 ) 

















图 2-3: 按 周 统计 的 婴儿 出 生 百 分 比 差异 








这 样 分 布 趋势 就 非常 清晰 了 : 第 一 月 
在 41 周 和 42 周 出 生 。 


2.10 相对 风险 


我 们 一 开始 就 提出 了 这 个 问题 ， 第 一 胎 婴 儿 出 生 较 晚 吗 ?让 我 们 明确 
一 下 ， 如 果 婴 儿 在 第 37 周 或 更 早出 生 ， 那 就 是 提前 出 生 ， 准 时 出 生 
则 是 在 第 38 到 第 40 周 ， 而 延 后 出 生 则 是 在 41 周 或 更 晚 。 这 类 用 于 
数据 分 组 的 范围 称 为 区 间 (bin)。 


my 
a 
宇 
We 
过 
次 
~ 
Ra 


在 39 周 出 生 ， 通 常 是 

















习题 2-6 
建 一 个 risk.py 文件 。 编 写 国 数 propEarly、ProbonTime 和 ProbLate， 
以 PMF 为 参数 ， 计 算 各 个 时 间 区 间 出 生 的 婴儿 所 占 的 比例 。 提 示 : 
可 以 写 一 个 通用 函数 实现 这 三 个 函数 的 功能 。 




















准备 三 个 PMF， 一 个 是 第 一 胎 婴 儿 的 ， 一 个 是 非 第 一 胎 婴 儿 的 ， 还 有 
一 个 是 所 有 婴儿 的 。 计 算 每 个 PMF 中 提前 出 生 、 准 时 出 生 和 延 后 出 
生 的 婴儿 的 概率 。 


可 以 用 相对 风险 (relative risk) 来 概括 类 似 的 数据 ， 它 代表 两 个 概率 
的 比值 。 例 如 ， 第 一 胎 提 前 出 生 的 概率 是 18.2%。 非 第 一 胎 婴 儿 提 前 
出 生 的 概率 是 16.8% ， 因 此 相对 风险 就 是 1.08。 这 意味 着 第 一 胎 较 其 
他 几 胎 更 早出 生 的 可 能 性 有 8%。 


编写 代码 确认 该 结果 ， 然 后 计算 准时 出 生 和 延 后 出 生 的 相对 风险 。 可 
以 从 http://thinkstats.com/risk.py 下 载 答案 。 


2.11 条 件 概率 


假设 你 认识 的 某 个 人 怀孕 了 ， 现 在 是 第 39 周 的 开始 ， 那 么 宝宝 这 一 
周 出 生 的 概率 是 多 少 ? 如 果 这 是 第 一 胎 的 话 ， 答 案 会 有 什么 变化 ? 











我 们 可 以 通过 计算 条 件 概率 来 回答 这 些 问 题 。 所 谓 条 件 概率 (conditional 
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probability) 就 是 依赖 于 某 个 条 件 的 概率 。 在 这 里 ， 条 件 就 是 已 知 宝 

宝 没 有 在 前 38 周 出 生 。 

下 面 是 一 种 计算 方法 。 

1. 根据 PMF 生成 一 个 1000 名 孕妇 的 模拟 人 和 群 。 对 于 每 个 周 数 x， 怀 
孕 x 周 的 孕妇 人 数 为 1000PMF(x)。 

2. 删除 所 有 怀孕 周 数 不 足 39 的 孕妇 。 

3. 计算 余下 怀孕 周期 的 PMF， 这 就 是 一 个 条 件 PMF。 

4. 计算 x=39 时 条 件 PMF 的 值 。 


这 个 算法 的 概念 很 简单 ， 但 效率 不 高 。 一 种 简单 的 替代 方案 是 将 小 于 
39 的 值 从 分 布 中 删除 ， 然 后 重新 将 数据 归 一 化 。 





习题 2-7 

编写 一 个 函数 实现 上 述 任意 一 个 算法 ， 计 算 宝宝 在 第 39 周 出 生 的 概 
率 (假设 宝宝 没有 在 39 周 前 出 生 )。 

将 该 函数 扩展 成 可 以 计算 宝 0 


有 在 x 周 之 前 出 生 )。 画 出 第 一 胎 宝 宝 和 其 他 宝宝 的 该 值 与 x 的 函数 关 





























答案 可 以 从 http://thinkstats.com/conditional.py 下 载 。 


2.12 汇报 结果 


至 此 ， 我 们 已 经 初步 探索 了 数据 ， 看 到 了 一 些 直观 效应 。 现 在 ， 假 设 
这 些 结果 都 是 真实 的 〈 但 要 记 住 ， 这 只 是 一 个 假设 ) ， 我 们 怎么 汇报 





不 同 的 人 需要 不 同 的 答案 。 例 如 ， 科 学 家 对 实际 效果 更 感 兴趣 ， 无 论 
多 小 。 医 生 可 能 只 关注 临床 上 有 重要 意义 的 结果 ， 也 就 是 会 影响 治疗 
决策 的 结果 。 而 孕妇 可 能 更 关心 与 自身 密切 相关 的 东西 ， 例 如 前 一 市 




















中 介绍 的 条 件 概 率 。 


如 何 汇报 结果 还 取决 于 具体 目的 。 如 果 是 要 证 明 某 种 影响 的 显著 性 ， 
可 以 选择 汇总 统计 量 ， 如 强调 差异 的 相对 风险 。 如 果 是 要 说 服 某 个 串 
者 ， 则 可 以 选择 能 反映 特定 情况 下 差异 的 统计 量 。 


习题 2-8 


根据 前 面 练 习 得 到 的 结果 ， 假 设 要 对 结果 进行 总 结 ， 判 断 第 一 胎 婴 儿 


如 果 从 晚间 新 闻 敖 取 一 则 故事 ， 应 该 选择 哪个 汇总 统计 量 ? 要 让 某 位 
焦虑 的 患者 放松 心情 ， 该 选择 哪些 统计 量 ? 





最 后 ， 假 设 你 是 The Straight Dope (http://straightdope.com) 的 作者 
Cecil Adams， 你 的 任务 是 回答 “第 一 胎 婴 儿 出 生 较 晚 吗 ? ”这 个 问 
题 。 用 本 章 中 的 结果 写 一 段 文字 ， 清 晰 、 准 确 地 回答 该 问题 。 


2.13 术语 表 


区 间 (bin) 
将 相近 数值 进行 分 组 的 范围 。 





。 集中 趋势 (central tendency) 

样本 或 总 体 的 一 种 特征 ， 直 观 来 说 就 是 最 能 代表 平均 水 平 的 值 。 
。 临床 上 有 重要 意义 (clinically significant) 

分 组 间 差 异 等 跟 实 践 操作 有 关 的 结果 。 
。 条 件 概率 (conditional probability ) 

某 些 条 件 成 立 的 情况 下 计算 出 的 概率 。 


。 分 布 (distribution ) 


对 样本 中 的 各 个 值 及 其 频数 或 概率 的 总 结 。 








。 频数 (frequency) 


样本 中 某 个 值 的 出 现 次 数 。 


。 直方 图 (histogram ) 


从 值 到 频数 的 映射 ,或 者 表示 这 种 映射 关系 的 图 





或 
oo 


。 众 数 (mode) 


样本 中 频数 最 高 的 值 。 


。 归 一 化 (normalization ) 


将 频数 除 以 样本 数量 得 到 概率 的 过 程 。 


。 异常 值 (outlier) 


远离 集中 趋势 的 值 。 


。 概率 (probability ) 


频数 除 以 样本 数量 即 得 到 概率 。 


。 概率 质量 函数 (Probability Mass Function，PMF ) 


以 函数 的 形式 表示 分 布 ， 该 函数 将 值 映 射 到 概率 。 


。 相对 风险 (relative risk) 





两 个 概率 的 比值 ， 通 常用 于 衡量 两 个 分 布 的 差异 。 














。 分 散 (spread) 


样本 或 总 体 的 特征 ， 直 观 来 说 就 是 数据 的 变动 有 多 大 。 


。 标准 差 (standard deviation ) 


方差 的 平方 根 ， 也 是 分 散 的 一 种 度量 。 


。 修剪 (trim) 


删除 数据 集中 的 异常 值 。 


。 方差 (variance) 


用 于 量化 分 散 程度 的 汇总 统计 量 。 
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驼 积 分 布 函数 





8. Bo 

在 大 部 分 美国 高 校 ， 师 生 比 例 都 在 1 : 10 左右 。 但 学生 经 常会 发 现 ， 

ee 10。 这 其 中 有 两 个 原因 。 

。 学 生 每 学 期 通常 会 上 4 到 5 门 课 程 ,但 一 个 教授 通常 只 会 教 一 两 门 课 。 

。 喜欢 小 班 (选课 人数 少 ) 的 学 生 人 数 往 而 参加 大 班 (选课 
人 数 多 ) 的 学 生 人 数 特别 多 。 


第 一 点 很 明显 (至 少 我 指出 后 你 就 能 明白 )， 第 二 点 就 不 是 那么 直观 
了 。 让 我 们 看 一 个 例子 。 某 个 学 校 某 学 期 开设 了 65 门 课程 ， 每 门 课 
程 的 选课 入 数 分 布 如 下 : 











人 数 课程 数 
5~9 8 
10~14 8 
15~19 14 
20~24 4 
25~29 6 
30~34 12 
35~39 8 
40~44 3 
45~49 » 


29 


如 果 我 们 问 院 长 ， 平 均 每 门 课程 的 选课 人 数 是 多 少 ? 他 会 构建 一 个 
PMF， 计 算出 均值 ， 然 后 告诉 你 平均 每 门 课程 有 24 个 人 选修 。 


但 如 果 你 找 学 生 做 调查 ， 询 问 他 们 参加 的 课程 有 多 少 学 生 ， 然 后 计算 
平均 值 ， 所 得 到 的 每 门 课程 的 平均 人 数 就 会 多 不 少 。 
习题 3-1 


按照 院 长 的 方法 构建 这 些 数据 的 PMF， 并 计算 均值 。 因 为 数据 是 分 组 
的 ， 所 以 可 以 用 每 组 的 中 点 值 。 


然后 再 从 学 生 的 角度 来 构建 选课 人 数 的 分 布 ， 并 计算 均值 。 

假设 想 要 得 到 学 校 每 门 课程 选课 人 数 的 分 布 情况 ， 但 又 无 法 从 院 长 那 
里 得 到 可 信 的 数据 。 其 中 一 种 解决 办 法 是 随机 选择 一 组 学 生 ， 然 后 询 
问 他 们 所 选课 程 的 上 课 人 数 。 然 后 可 以 根据 调查 的 结果 计算 出 PMF。 
这 个 结果 是 有 偏差 的 。 因 为 选修 人 数 多 的 课程 会 被 过 采样 ， 所 以 在 佑 
计 选 课 人 数 真实 分 布 时 要 对 观察 到 的 分 布 做 一 个 合适 的 变换 。 

编写 一 个 UnbiasPmf 国 数 ， 参 数 是 观察 值 的 PMF， 返 回 据 此 估计 出 
的 表示 选课 人 数 分 布 的 Pmf 对 象 。 


答案 可 以 从 http://thinkstats.com/class_size.py 下 载 。 





习题 3-2 

在 大 部 分 的 田径 比赛 中 ， 选 手 都 是 同时 出 发 的 。 如 果 跑 得 快 ， 那 么 在 
比赛 刚 开始 的 时 候 会 超过 很 多 人 ， 但 在 跑 出 几 英 里 后 你 就 会 发 现 ， 周 
围 都 是 跟 你 速度 差不多 的 选手 。 

我 第 一 次 参加 长 跑 (209 英里 ) 接力 时 ， 注 意 到 一 个 奇怪 的 现象 : 当 
我 超过 其 他 选手 时 ， 我 会 跑 得 更 快 ， 当 其 他 选手 超过 我 时 ， 他 们 通常 
也 会 跑 得 更 快 。 
一 开始 ， 我 觉得 速度 的 分 布 是 两 级 分 化 的 : 速度 快 和 速度 慢 的 人 都 很 
多 ， 但 跟 我 速度 差不多 的 人 应 该 不 多 。 
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但 随后 我 发 现 我 的 选择 是 有 偏差 的 。 这 个 比赛 有 两 个 特点 : 分 阶段 出 
发 ， 不 同 的 队伍 出 发 时 间 也 不 同 ， 此 外 ， 同 一 个 队伍 中 选手 的 水 平 也 
参差 不 齐 。 


因此 ， 选 手 在 比赛 道路 上 所 处 的 位 置 与 其 速度 和 名 次 没有 什么 关系 。 
在 我 开始 跑 时 ， 我 周围 的 参赛 选手 基本 上 是 随机 的 。 


那 这 其 中 的 偏差 来 自 何 处 ?在 整个 比赛 过 程 中 ， 超 过 其 他 选手 或 者 是 被 
其 他 选手 超过 的 概率 跟 选 手 间 速 度 差 异 的 大 小 是 有 关 的 。 为 什么 ? 想 想 
最 极端 的 情况 。 如 果 我 跟 另 外 一 个 比赛 选手 的 速度 完全 一 样 ， 那 我 们 就 
可 能 超过 对 方 ， 也 不 可 能 被 对 方 超过 。 如 果 某 个 选手 跑 得 特别 快 ， 在 
我 跑 的 过 程 中 跑 完 了 全 程 ， 那 这 位 选手 肯定 会 在 某 个 地 方 超过 我 。 
写 一 个 BiasPmf 函数 ， 其 参数 是 表示 选手 速度 实际 分 布 的 Pmf 和 观 
察 者 的 速度 ， 返 回 值 是 一 个 新 的 Pmf， 表 示 其 他 选手 相对 观察 者 的 速 
度 分 布 。 


用 一 般 的 道路 比赛 (不 是 接力 赛 ) 的 数据 测试 函数 。 我 写 了 一 个 程序 
读 取 马 萨 诸 塞 州 Dedham 的 James Joyce Ramble 一 万 米 比赛 的 数据 ， 
并 将 每 个 选手 的 速度 单位 转换 成 mh。 可 以 从 http://thinkstats.com/ 
relay.py 下 载 这 个 程序 。 运 行 该 程序 ， 看 看 速度 的 PMF。 


现在 假设 你 以 7.5 mA 的 速度 参加 这 个 比赛 ， 计 算 你 所 观察 到 的 选手 的 
速度 分 布 。 可 以 从 这 里 下 载 答案 : http://thinkstats.com/relay_soln.py。 


























3.2 PMF 的 不 足 


如 果 要 处 理 的 数据 比较 少 ，PMEF 很 合适 。 但 随 着 数据 的 增加 ， 每 个 值 
的 概率 就 会 降低 ， 人 


例如 ， 假 设 我 们 对 新 生 儿 的 体重 分 布 感 兴趣 。 在 NSFG 的 数据 中 ， 
量 Oe oz 以 齿 司 "为 单位 记录 了 新 生 儿 的 体重 。 图 3-1 访 遇 证 
一 胎 婴 儿 和 其 他 婴儿 的 体重 PMFE。 这 也 说 明了 PMEF 的 一 个 不 足 之 








注 1: 英制 计量 单位 ，1 盘 司 =28.350 克 。 一 一 编者 注 
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处 : 很 难 做 比较 。 











新 生 儿 体重 PMF 
0.040 
第 一 胎 婴 儿 
0.035 本 非 第 一 胎 婴 儿 





100 150 250 
体重 (以 澳 司 为 单位 ) 














图 3-1: 新 生 儿 体重 PMF 


整体 上 来 看 ， 这 两 个 分 布 都 是 钟 型 曲线 ， 均 值 附近 的 值 比 较 多 ， 远 离 
均值 的 较 大 值 和 较 小 值 都 比较 少 。 


但 这 个 图 中 有 些 东 西 很 难 解读 。 其 中 有 很 多 峰值 和 低谷 ， 而 且 两 个 分 
布 间 有 些 很 明显 的 差异 。 很 难说 哪些 特征 是 显著 的 。 此 外 ， 也 不 容易 
分 辩 整 体 的 模式 ， 比 如 哪个 分 布 的 均值 比较 大 ? 


通过 将 数据 分 组 可 以 解决 这 些 问 题 。 也 就 是 将 整个 区 域 分 成 若干 个 不 
重 闪 的 区 间 ， 然 后 计算 每 个 区 间 内 值 的 数量 。 分 组 很 有 用 ， 但 确定 分 
组 区 间 的 大 小 就 需要 技巧 了 。 分 组 区 间 大 到 能 够 消除 噪声 的 时 候 ， 也 
会 把 有 用 的 信息 抹 掉 。 


另 一 个 解决 这 些 问 题 的 方法 是 累积 分 布 函数 (Cumulative Distribution 
Function，CDF)。 不 过 在 介绍 CDF 之 前 ， 我 们 先 来 说 说 百 分 位 数 


(percentile ) 。 
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3.3 百 分 位 数 

标准 化 考试 的 成 绩 一 般 会 以 两 种 形式 呈现 ， 一 种 是 原始 分 数 ， 另 一 种 
则 是 百 分 等 级 (percentile rank)。 在 这 里 ， 百 分 等 级 就 是 原始 分 数 不 
高 于 你 的 人 在 全 部 考试 人 数 中 所 占 的 比例 再 乘 以 100。 所 以 ， 如 果 你 
在 90 百 分 位 数 ， 那 就 是 说 你 比 90% 的 人 成 绩 好 ， 或 者 至 少 不 比 90% 
的 考试 人 员 差 。 


下 面 的 代码 可 以 计算 出 给 定 值 的 百 分 等 级 ， 这 里 给 定 值 是 your_score， 
所 有 分 数 是 SCOLTeS : 
def PercentileRank (scores, your _ Score) : 
count = 0 
for score in scores: 


if score <= your score: 
count += 1 


percentile rank = 100.0 * count / len(scores) 
return percentile rank 


例如 ， 如 果 这 串 分 数 是 55、66、77、88 和 99， 而 你 的 分 数 是 88。 那 
么 你 的 百 分 等 级 就 是 100 x 4/5， 等 于 80。 


对 于 给 定 的 值 ， 很 容易 计算 出 百 分 等 级 ， 但 反 过 来 就 要 困难 些 。 对 于 
给 定 的 百 分 等 级 ， 要 找到 对 应 的 值 ， 一 种 解决 方法 就 是 对 所 有 的 值 排 
序 ， 然 后 搜索 想 要 的 值 : 





def Percentilel(scores, percentile rank): 
scores.sort () 
for score in scores: 
if PercentileRank (scores, score) >= percentile rank: 
return Score 


结果 就 是 一 个 百 分 位 数 。 例 如 ，50 百 分 位 数 就 是 百 分 等 级 为 50 的 值 。 
在 前 面 的 萎 试 分 数 分 布 中 ，50 百 分 位 数 就 是 77。 


习题 3-3 
前 面 实现 的 Percentile 的 效率 并 不 高 。 一 种 更 好 的 方法 是 用 百 





累积 分 布 函数 | 33 


分 等 级 计算 相应 的 百 分 位 数 的 索引 。 用 这 个 算法 实现 一 个 新 版 的 


Percentile。 


答案 可 以 从 http://thinkstats.com/score_example.py 下 载 。 


习题 3-4 
选 做 : 如 果 要 计算 某 个 百 分 位 数 ， 采 用 分 数 排序 很 低 效 。 更 好 的 
解决 办 法 是 用 选择 算法 ， 详 见 http://wikipedia.org/wiki/Selection_ 
algorithm 。 

实现 选择 算法 ， 或 者 找 一 个 现成 的 实现 ， 用 它 编 写 一 个 更 高 效 的 
Percentile 国 数 。 


3.4 累积 分 布 函数 

理解 了 百 分 位 数 ， 现 在 我 们 可 以 开始 学 习 累 积分 布 国 数 (CDF) 了 。 
CDF 函数 就 是 值 到 其 在 分 布 中 百 分 等 级 的 映射 。 

CDF 是 x 的 函数 ， 其 中 x 是 分 布 中 的 某 个 值 。 计 算 给 定 x 的 CDF(x)， 
就 是 计算 样本 中 小 于 等 于 x 的 值 的 比例 。 

以 下 函数 的 参数 是 样本 t 和 值 x: 


def Cdf (t, x): 
Count = 0.0 








for Value in t: 
if Value <= XxX: 
count += 1.0 


prob = count / len(t) 
return prob 


读者 应 该 很 熟悉 这 个 函数 ， 这 跟前 面 的 PercentileRank 国 数 几 乎 一 
样 ， 唯 一 区 别 就 是 该 函数 返回 的 结果 是 0 ~ 1 范围 内 的 概率 ， 而 不 是 
0 ~ 100 范围 内 的 百 分 等 级 。 


来 看 个 例子 ， 给 定 一 个 样本 {1, 2, 2, 3, 5}。 下 面 是 其 中 某 些 值 的 CDF: 
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CDF(0) =0 
CDF(1) = 0.2 
CDF(2) = 0.6 
CDF(3) = 0.8 
CDF(4) = 0.8 
CDF(5) = 1 


我 们 可 以 计算 任意 值 x 的 CDF， 而 不 仅 是 样本 中 出 现 的 值 。 如 果 x 比 
样本 中 最 小 的 值 还 要 小 ， 那 么 CDF(x) 就 等 于 0。 如 果 x 比 样本 中 的 最 
大 值 还 要 大 ， 那 么 CDF(x) 就 是 1。 





图 3-2 是 这 个 CDF 的 图 形 化 表示 。 样 本 的 CDF 是 一 个 阶 跃 函数 。 在 
下 一 章 ， 我 们 会 看 到 作为 连续 函数 的 CDF 的 分 布 。 














CDF (x) 














图 3-2: CDF 示例 
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3.5 CDF 的 表示 


我 编写 了 一 个 caf 模块 ， 提 供 了 用 于 表示 CDF 的 caf 类 。 该 模块 的 
文档 在 http://thinkstats.com/Cdf.html， 也 可 以 从 http://thinkstats.com/ 
Cdf.py 下 载 。 


Cdf 是 用 两 个 有 序列 表 xs 和 ps 实现 的 : 其 中 xs 列 出 了 值 ，ps 列 出 
了 概率 。Cdf 中 最 重要 的 方法 如 下 所 示 。 








。 Prob (x) 
对 于 给 定 值 x， 计 算 概 率 p=CDF(x)。 


。 Value (p) 
对 于 给 定 概率 p， 计 算 相应 的 值 x*， 也 就 是 p=CDF(x) 的 逆 运 算 。 


因为 xs 和 ps 都 经 过 了 排序 ， 所 以 上 述 操作 都 可 以 使 用 二 分 算法 ， 效 
率 很 高 。 运 行 时 间 跟 值 数量 的 对 数 成 正比 ， 详 见 http://wikipedia.org/ 


wiki/Time_complexity。 

Cdf 还 有 Render 方法 ， 它 会 返回 xs 和 ps 列表 ， 可 以 用 于 绘制 CDF 
图 。 因 为 CDF 是 一 个 阶 跃 函数 ， 所 以 分 布 中 的 每 个 值 都 会 在 这 两 个 列 
表 中 分 别 有 对 应 的 元 素 。 

caf 模块 还 提供 了 几 个 生成 Cdf 的 国 数 ， 包 括 MakecdfFromList， 
以 一 个 序列 为 参数 ， 返 回 它们 的 Cdf。 





最 后 要 说 一 下 ，myplot.py 中 的 caf 和 cafs 函数 可 以 绘制 Cdf 折线 图 。 


习题 3-5 
下 载 Cdfpy 和 relay.py (参见 习题 3-2)， 画 出 跑步 速度 的 CDF 图 。 哪 个 
函数 可 以 更 好 地 看 出 分 布 形状 ， 是 PMF 还 是 CDF ?代码 可 以 从 http:// 
thinkstats.com/relay_cdf.py 下 载 。 








3.6 回 到 调查 数据 


图 3-3 是 NSFG 数据 集中 第 一 胎 婴 儿 和 其 他 婴儿 出 生体 重 的 CDF。 











出 生体 重 的 CDF 





一 第 一 胎 婴 儿 
一 非 第 一 胎 婴 儿 








0 50 100 150 200 
体重 (以 的 司 计 ) 











图 3-3: 出 生体 重 的 CDF 


从 这 个 图 可 以 更 加 清楚 地 看 出 两 个 分 布 的 形状 和 两 者 的 差异 。 从 两 个 
分 布 可 以 看 出 ， 我 们 可 以 看 到 第 一 胎 婴 儿 的 体重 略 轻 ， 在 大 于 均值 的 
部 分 有 较 大 的 差异 。 





习题 3-6 
你 出 生 时 有 多 重 ? 如 果 你 自己 不 知道 的 话 ， 可 以 打 电 话 给 你 妈妈 或 者 
是 其 他 知道 的 人 问 问 。 利 用 所 有 活 婴 的 数据 计算 婴儿 出 生体 重 数据 分 
布 ， 然 后 算 算 你 在 其 中 的 百 分 等 级 。 如 果 你 是 第 一 胎 出 生 的 ， 那 再 看 
看 自己 在 第 一 胎 婴 儿 的 分 布 中 的 百 分 等 级 。 如 果 不 是 第 一 胎 出 生 的 ， 
那 就 看 看 你 在 其 他 婴儿 中 的 百 分 等 级 。 你 在 这 两 个 分 布 中 的 百 分 等 级 
有 多 大 区 别 ? 
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习题 3-7 

假如 你 和 同学 都 计算 了 各 自 出 生体 重 的 百 分 等 级 ， 然 后 计算 了 百 分 竺 
级 的 CDF。 你 觉得 这 个 分 布 会 是 什么 样子 ”提示 : 预计 班 上 有 多 少 同 
学 会 在 中 位 数 以 上 。 


3.7 条 件 分 布 

所 谓 条 件 分 布 就 是 根据 某 个 条 件 选 择 的 数据 子 集 的 分 布 。 

例如 ， 如 果 你 的 体重 略 高 于 平均 值 ， 但 身高 远 远 超过 平均 值 ， 那 么 就 
你 的 身材 来 说 ， 你 可 能 体重 偏 轻 。 如 何 才能 更 精确 地 表述 这 个 情况 ? 
1. 选择 一 组 身高 跟 你 差不多 (在 一 定 范围 内 ) 的 人 。 

2. 算出 这 群 人 体重 的 CDF。 

3. 找到 你 的 体重 在 该 分 布 中 的 百 分 等 级 。 

比较 来 自 不 同 测 试 的 度量 结果 或 不 同 分 组 的 测试 结果 时 ， 百 分 等 级 非 
常 有 用 。 

例如 ， 参 加 田径 比赛 的 人 一 般 是 按 年 龄 和 性 别 分 组 的 。 要 比较 不 同 分 
组 中 选手 的 水 平 ， 就 可 以 将 比赛 时 间 转 换 成 百 分 等 级 再 做 比较 。 











习题 3-8 
我 最 近 参 加 了 在 马萨诸塞 州 Dedham 举办 的 James Joyce Ramble 
一 万 米 长 跑 。 比 赛 结果 放 在 了 http://coolrunning.com/results/10/ma/ 
Apr25_27thAn_setl.shtml 上 。 访 问 这 个 网 页 可 以 看 到 我 的 比赛 成 绩 : 
在 全 部 1633 名 选手 中 排名 第 97 位 。 那 么 我 在 所 有 参赛 选手 中 的 百 分 


等 级 是 多 少 ? 


在 我 所 在 的 分 组 中 (M4049 的 意思 是 “40 到 49 岁 之 间 的 男性 ”)， 我 
在 256 名 选手 中 排 在 第 26 位 。 我 在 这 个 分 组 中 的 百 分 等 级 是 多 少 ? 


如 果 我 在 未 来 十 年 都 参加 这 个 比赛 (希望 我 能 行 )， 我 就 会 参加 M5059 
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分 组 。 假 设 我 在 分 组 中 的 百 分 等 级 不 变 ， 我 的 速度 会 变 慢 多 少 ? 


我 跟 我 的 一 个 学 生 比 成 绩 ， 她 是 F2039 组 的 。 她 要 在 下 次 一 万 米 长 跑 
中 跑 多 快 才能 在 百 分 等 级 上 赢 我 ? 


3.8 随机 数 

在 生成 服从 给 定 分 布 的 随机 数 时 ，CDF 是 很 有 用 的 。 

。 在 0 到 1 的 范围 内 选择 一 个 随机 的 概率 。 

。 用 cqaf .value 找到 你 所 选 的 概率 在 分 布 中 对 应 的 值 。 

这 其 中 的 原理 似乎 不 大 直观 ， 但 这 容易 实现 ， 让 我 们 动手 试 试 。 




















习题 3-9 
编写 一 个 sample 函数 ， 参 数 是 一 个 Cdf 和 一 个 整数 n， 返 回 nn 个 来 
自 该 Cdf 的 随机 数 。 提 示 : 用 random.random。 在 Cdf.py 中 有 本 练 
习 的 解答 。 


用 来 自 NSFG 的 出 生体 重 分 布 生 成 一 个 1000 个 元 素 的 随机 样本 。 
计算 该 样本 的 CDF。 画 出 原始 的 CDF 和 随机 样本 的 CDF。 如 果 n 
足够 大 ， 两 个 分 布 应 该 是 一 样 的 。 


这 个 根据 已 有 的 样本 生成 随机 样本 的 过 程 就 称 为 再 抽样 (resampling)。 


从 总 体 获得 样本 的 方法 有 两 种 : 有 放 回 和 无 放 回 。 假 设 是 从 小 桶 子 里 
面 取 玻璃 球 ",“ 有 放 回 ”就 是 在 下 次 取 球 之 前 将 之 前 取 的 球 放 回 桶 中 
(并 搅动 )， 所 以 每 次 取 球 后 的 总 体 都 是 不 变 的 。“ 无 放 回 ” 就 是 每 个 球 
只 能 取 一 次 ， 这 样 每 次 取 球 的 总 体 都 不 一 样 。 

在 Python 中 ， 可 以 用 random.random 选择 百 分 等 级 或 者 用 random. 


choice 从 序列 中 选择 元 素来 实现 有 放 回 抽样 ， 而 用 random. sample 
实现 无 放 回 抽样 。 














注 2: 取 球 问题 是 随机 抽样 过 程 的 标准 模型 (参见 http:Wwikipedia.org/wiki/Urn_problem ) 。 
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习题 3-10 
random.random 生成 的 数字 介 于 0 到 1 之 间 ， 也 就 是 说 该 范围 内 的 
每 个 值 被 选中 的 概率 是 一 样 的 。 

用 random.random 生成 1000 个 数字 ， 画 出 它们 的 PMF 和 CDF。 是 
否 能 判断 它们 是 均匀 分 布 ? 

关于 均匀 分 布 ， 详 见 http:Wwikipedia.org/wiki/Uniform distribution __ 


(discrete)。 


汇总 统计 量 小 结 
在 算出 CDF 之后， 再 计算 其 他 汇总 统计 量 就 比较 容易 了 。 中 位 数 
(median) 就 是 百 分 等 级 是 50 的 值 。 25 和 75 百 分 等 级 通常 用 来 检查 
分 布 是否 对 称 。 这 两 者 间 的 差异 称 为 四 分 差 (interquartile range) ， 表 
示 分 布 的 分 散 情 况 。 




















习题 3-11 
编写 一 个 Median 函数 ， 以 Cdf 作为 参数 ， 计 算 其 中 位 数 。 再 编写 一 个 
Interquartile 国 数 ， 计 算 四 分 差 。 


计算 出 生体 重 CDF 的 25、50 和 75 百 分 等 级 。 从 这 些 值 是 否 可 以 判断 
分 布 是 对 称 的 ? 


3.10 术语 表 


。 条 件 分 布 (conditional distribution) 


在 满足 一 定 前 提 条 件 下 计算 出 的 分 布 。 

















注 3: 中 位 数 还 有 其 他 定义 。 有 些 资料 会 说 ， 当 样本 中 元 素 的 个 数 是 偶数 时 ， 中 位 数 是 中 
间 两 个 元 素 的 平均 值 。 没 必要 定义 这 种 特殊 情况 ， 而 且 用 一 个 样本 中 不 存在 的 值 会 
显得 奇 茎 。 本 书 中 位 数 就 是 指 百 分 等 级 为 50 的 值 。 
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累积 分 布 函数 (Cumulative Distribution Function ，CDF) 
将 值 映射 到 其 百 分 等 级 的 函数 。 


四 分 关 (interquartile range) 


表示 总 体 分 散 情况 的 值 ， 等 于 75 和 25 百 分 等 级 之 间 的 差 。 


百 分 位 数 (percentile) 
与 百 分 等 级 相关 联 的 数值 。 


百 分 等 级 (percentile rank) 
分 布 中 小 于 或 等 于 给 定 值 的 值 在 全 部 值 中 所 占 的 百分比 。 





放 回 (replacement) 
在 抽样 过 程 中 ,“ 有 放 回 ”表示 对 于 每 次 抽样 ， 总 体 都 是 不 变 的 。 
“无 放 回 ”表示 每 个 元 素 只 能 选择 一 次 。 








再 抽样 (resampling) 
根据 由 样本 计算 得 到 的 分 布 重新 生成 新 的 随机 样本 的 过 程 。 
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本 书 迄 今 为 止 所 介绍 的 分 布 都 是 经 验 分 布 (empirical distribution ) ， 
因为 这 些 分 布 都 是 基于 经 验 观察 的 ， 其 中 的 样本 都 是 有 限 的 。 








tH 





另 一 种 分 布 是 连续 分 布 (continuous distribution) ， 它 的 特点 是 其 CDF 
是 一 个 连续 函数 ( 跟 阶 跃 函数 完全 不 同 )。 很 多 实际 现象 都 近似 于 连 
续 分 布 。 


已 米 

4.1 指数 分 布 

我 首先 介绍 最 简单 的 指数 分 布 (exponential distribution ) 。 举 个 例子 ， 
观察 一 系列 事件 之 间 的 间隔 时 间 (interarrival time)。 若 事件 在 每 个 时 
间 点 发 生 的 概率 相同 ， 那 么 间隔 时 间 的 分 布 就 近似 于 指数 分 布 。 


指数 分 布 的 CDF 是: 
CDEFCOD)=1-e 
参数 4 决定 了 分 布 的 形状 。 图 4-1 中 是 4=2 时 的 CDEF。 
通常 ， 指 数 分 布 的 均值 是 14， 所 以 这 个 分 布 的 均值 是 0.5。 分 布 的 中 
位 数 是 log(2)/4， 大 概 等 于 0.35。 
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来 看 一 个 近似 指数 分 布 的 例子 ， 我 们 看 看 婴儿 出 生 时 间 的 间隔 。1997 
年 12 月 18 日 ,澳大利亚 布 里 斯 班 的 医院 总 共 出 生 了 44 个 婴儿 '。 这 
44 个 婴儿 的 出 生 时 间 数 据 在 当地 的 历史 文件 中 有 记录 ， 可 以 从 http:// 
thinkstats.com/babyboom.dat 下 载 到 这 个 数据 。 





指数 分 布 的 CDF 
1.0 


0.8r 


0.6r 


CDF 


0.4 上 
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图 4-1: 指数 分 布 的 CDF 

图 4-2 中 是 间隔 时 间 的 CDF， 单 位 是 分 钟 。 这 看 上 去 跟 指数 分 布 的 形 
状 很 像 ， 但 我 们 如 何 才 能 确定 这 就 是 一 个 指数 分 布 ? 

一 种 办 法 是 画 出 取 对 数 后 的 互补 累积 分 布 函数 (Complementary CDF,， 
CCDF) : 1- CDF(x)。 如 果 数 据 服从 指数 分 布 ， 这 应 该 是 一 条 直线 。 
让 我 们 看 看 为 什么 会 这 样 。 











注 1: 这 个 例子 的 信息 和 数据 来 自 Dunn, “A Simple Dataset for Demonstrating Common 
Distributions,” Journal of Statistics Education v.7, n.3 (1999)。 
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指数 分 布 的 数据 集 的 CCDF 如 下 : 
py~e” 

两 边 取 对 数 得 到 : 
logy = -x 


所 以 ， 在 对 了 轴 上 的 值 取 对 数 后 ，CCDF 是 一 条 和 斜率 为 -4 的 直线 。 








出 生 时 间 间 隔 
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图 4-2: 间隔 时 间 的 CDF 





图 4-3 是 y 轴 取 对 数 后 的 间隔 时 间 的 CCDF。 图 中 并 不 是 一 条 严格 意 
义 上 的 直线 ， 说 明 指数 分 布 还 只 是 一 个 近似 。 也 就 是 说 ， 以 下 假设 并 
不 完全 正确 婴儿 在 一 天 中 各 个 时 间 出 生 的 概率 一 样 。 
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图 4-3: 间隔 时 间 CCDF 


习题 4-1 
在 n 较 小 时 ， 经 验 分 布 不 会 很 好 地 符合 连续 分 布 。 评 价 两 者 间 相 似 性 
的 一 个 方法 是 从 连续 分 布 中 生成 样本 ， 看 看 生成 的 样本 跟 数据 的 匹配 
random 模块 中 的 expovariate 国 数 可 以 为 给 定 4 生成 服从 指数 分 布 
的 随机 数 。 用 这 个 国 数 生成 44 个 服从 随机 分 布 且 均 值 为 32.6 的 数 。 
画 出 其 y 取 对 数 后 的 CCDF 图 ， 将 其 与 图 4-3 做 比较 。 














提示 : 可 以 用 pyplot .yscale 画 出 取 对 数 后 的 7 轴 。 





也 可 以 用 myplot 中 的 caf 函数 绘制 y 取 对 数 后 的 CCDF，cqdf 函数 
有 一 个 选项 complement， 用 于 判断 是 绘制 CDF 还 是 CCDF， 还 有 两 
个 用 于 数 轴 转换 的 字符 串 选 项 xscale 和 yscale: 


myplot .Cdf (cdf, complement=True,xscale='linear',yscale='10og') 
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习题 4-2 
收集 你 班 上 同学 的 生日 ， 先 排序 ， 然 后 以 天 为 单位 计算 同学 生日 的 时 
间 间 隔 。 画 出 间隔 时 间 的 CDF 和 yy 轴 取 对 数 后 的 CCDF， 它 们 看 上 去 
像 是 指数 分 布 吗 ? 


4.2 帕 累 托 分 布 

帕 累 托 分 布 是 以 经 济 学 家 维尔 弗 雷 多 帕 累 托 (Vilfredo Pareto) 的 
名 字 命 名 的 ， 他 曾 用 这 个 分 布 来 描述 财富 分 布 情况 ( 详 见 http:// 
wikipedia.org/wiki/Pareto_distribution) 。 从 那 以 后 ， 该 分 布 就 广泛 用 
于 描述 自然 界 和 社会 科学 中 的 各 种 现象 ， 包 括 城镇 大 小 、 砂 粒 和 陨 
石 、 和 森林 火灾 和 地 震 等 。 

帕 坚 托 分 布 的 CDF 是 : 


CDF(x)=1— [一 人 





参数 x, 和 a 决定 了 分 布 的 位 置 和 形状 。x 是 最 小 值 。 图 4-4 是 x,=0.5、 
a=1 的 帕 累 托 分 布 的 CDF。 





帕 累 托 分 布 的 CDF 
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图 4-4: 由 累 托 分 布 的 CDF 
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该 分 布 的 中 位 数 是 : 


l/a 
Xn2 





即 1， 但 其 百 分 等 级 为 95 的 值 是 10， 而 中 位 数 为 1 的 指数 分 布 中 百 
分 等 级 为 95 的 值 仅仅 是 1.5。 


可 以 通过 图 形 判 断 一 个 经 验 分 布 是 否 服从 帕 累 托 分 布 : 对 两 条 数 轴 都 
取 对 数 后 ， 甚 CCDF 应 该 基本 上 是 一 条 直线 。 如 果 直 接 画 出 服从 帕 累 
托 分 布 的 样本 的 CCDF， 其 函数 如 下 : 























对 两 边 取 对 数 : 
logy ~ -a(log x — log xX,) 


在 对 y 和 x 取 对 数 后 ， 就 应 该 基本 上 是 条 直线 ,斜率 是 -a， 截 距 是 -ologx,。 


习题 4-3 
random 模块 中 的 paretovariate 国 数 可 以 生成 服从 帕 累 托 分 布 的 随 
机 数 。 该 函数 只 有 一 个 参数 a， 却 没有 x,。x 默认 值 是 1， 乘 上 x,， 
就 可 以 生成 各 种 不 同 的 分 布 。 


写 一 个 paretovariate 蚊 数 ， 以 a 和 ,作为 参数 ， 用 random. 
paretovariate 生成 服从 双 参 数 帕 累 托 分 布 的 随机 数 。 


用 你 自己 编写 的 国 数 生成 一 个 服从 帕 票 托 分 布 的 样本 。 计 算 CCDE， 
取 对 数 后 画 出 来 。 是 一 条 直线 吗 ? 斜率 是 多 少 ? 


习题 4-4 
为 了 对 由 累 托 分 布 有 一 个 直观 感受 ， 让 我 们 想象 一 下 ， 如 果 全 世界 所 
有 的 人 的 身高 服从 帕 累 托 分 布 会 是 一 个 什么 情况 。 假 设 参数 x,=100 
厘米 ，a=1.7。 这 个 分 布 的 最 小 值 是 100 厘米 ， 而 中 位 数 是 150 厘米 
(这 样 比较 合理 ) 。 
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生成 60 亿 个 服从 该 分 布 的 随机 值 。 样 本 的 均值 是 多 少 ? 其 中 有 多 大 
比例 的 人 身高 低 于 均值 ?在 帕 累 托 世界 中 最 高 的 人 多 高 ? 





习题 4-5 
Zipf 法 则 是 一 个 关于 各 种 单词 使 用 频率 差异 的 观 罕 结 论 。 常 用 单词 的 
使 用 频率 非常 高 ， 而 罕见 单词 比如 hapaxlegomenon (一 次 频 词 ) 则 使 
用 得 很 少 。 Zipf 法 则 说 的 是 在 一 段 文本 〈 即 语料库 corpus) 中 ， 单 词 
频数 的 分 布 近似 于 帕 累 托 分 布 。 

找 一 个 大 的 电子 版 语料库 ， 任 何 语言 的 都 可 以 。 计 算 其 中 每 个 单词 的 
出 现 次 数 。 算 出 单词 出 现 次 数 的 CCDF， 画 出 取 对 数 后 的 图 。Zipf 法 
则 是 否 成 立 ? eu 的 近似 值 是 多 少 ? 








习题 4-6 
威 布 尔 分 布 是 一 个 广义 上 的 指数 分 布 ， 源 自 故 障 分 析 (failure analysis ， 
详 见 http:Wwikipedia.org/wiki/Weibull_distribution) 。 它 的 CDF 是 : 


CDEFCD = 1-e 
能 否 找到 某 个 变换 将 威 布 尔 分 布 变 成 一 条 直线 ? 这 条 直线 的 斜率 和 截 
距 分 别 表 示 什 么 意思 ? 


用 random.weibullvariate 生成 一 个 服从 威 布 尔 分 布 的 样本 ， 然 后 
用 这 个 样本 测试 一 下 你 的 变换 。 


4.3 正 态 分 布 


正 态 分 布 也 称 为 高 斯 分 布 ， 因 其 可 以 近似 描述 很 多 现象 而 成 为 最 常用 
的 分 布 。 它 的 “ 普 适 性 ”是 有 原因 的 ， 我 们 会 6.6 节 做 介绍 。 

正 态 分 布 有 很 多 使 其 适用 于 各 种 分 析 的 特性 ， 但 CDF 并 不 是 其 中 之 
一 。 跟 之 前 看 到 的 分 布 不 一 样 ， 我 们 对 于 正 态 分 布 的 CDF 还 没有 一 种 
准确 的 表达 。 最 常用 的 一 种 形式 是 以 误差 函数 (error function) 表示 
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的 ， 误 差 函 数 是 一 种 特殊 函数 ， 表 示 为 erf(x): 





CDFC =3 引 +ed( 到 
erf (x) 六 /ed 


参数 人 4 和 决定 了 分 布 的 均值 和 标准 差 。 


如 果 这 些 公 式 看 起 来 眼花 也 别 担 心 ， 在 Python 中 很 容易 实现 这 些 
公式 *。 有 很 多 高 效 准确 的 方法 来 近似 erf(x)。 我 实现 了 一 种 ， 可 从 
http://thinkstats.com/erf.py 下 载 ， 其 中 提供 了 erf 和 Normalcaf 两 个 
国 数 。 











图 4-5 是 参数 1=2.0，o=0.5 的 正 态 分 布 的 CDF。 这 种 $ 型 曲线 就 是 正 态 
分 布 的 标志 。 





正 态 分 布 的 CDF 


CDF 




















图 4-5: 正 态 分 布 的 CDF 








注 2: 在 Python 3.2 中 更 容易 ，math 模块 中 就 有 erf 函数 
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在 前 一 章 中 ， 我 们 看 过 NSFG 数据 中 新 生 儿 体重 的 分 布 。 图 4-6 中 是 
所 有 新 生 儿 体重 的 经 验 CDF， 以 及 有 着 相同 均值 和 方差 的 正 态 分 布 
的 CDF。 
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图 4-6: 服从 正 态 模型 的 新 生 儿 体重 的 CDF 


对 于 这 个 数据 集 ， 正 态 分 布 是 一 个 不 错 的 模型 。 模 型 就 是 一 种 有 效 的 
简化 。 此 处 说 它 简 单 实用 是 因为 我 们 可 以 用 两 个 参数 (1=116.5 和 
o =19.9) 来 总 结 整个 分 布 ， 并 且 所 得 到 的 误差 (模型 和 数据 之 间 的 区 
别 ) 很 小 。 


在 10 百 分 位 数 以 下 的 部 分 ， 数 据 和 模型 之 间 出 现 了 差异 ， 体 重 较 轻 
的 新 生 儿 数量 比 我 们 根据 正 态 分 布 得 到 的 预期 值 要 高 一 些 。 如 果 研 究 
的 是 时 产儿， 那么 这 部 分 分 布 的 正确 性 就 非常 重要 ， 使 用 正 态 分 布 就 
不 合适 了 。 
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习题 4-7 

The Wechsler Adult Intelligence Scale 是 一 个 智商 测试 *。 我 们 对 结果 
作 变 换 ， 这 样 分 数 在 一 般 人 群 中 的 分 布 就 是 正 态 的 ， 参 数 为 4=100 和 
ly 





用 erf .Normalcdf 函数 查看 正 态 分 布 中 罕见 事件 的 频数 。 人 群 中 有 
多 大 比例 的 人 智商 高 于 均值 ? 高 于 115、130、145 的 分 别 是 多 少 ? 


“六 西格玛 ”事件 就 是 超出 均值 6 个 标准 差 的 值 ， 所 以 六 西格玛 智商 
是 190。 在 全 世界 60 亿 人 中 ， 智 商 超过 190 的 人 有 多 少 “? 





习题 4-8 
画 出 所 有 新 生 儿 怀孕 周期 的 CDF。 看 上 去 像 正 态 分 布 吗 ? 

计算 样本 的 均值 和 方差 ， 根据 这 两 个 参数 画 出 正 态 分 布 。 使 用 该 正 态 
分 布 对 数据 建 模 合适 吗 ? 如 果 用 两 个 统计 量 来 总 结 这 个 分 布 ， 应 该 选 
哪 两 个 统计 量 ? 


4.4 正 态 概率 图 


对 于 指数 分 布 、 帕 累 托 分 布 和 威 布 尔 分 布 ， 都 可 以 通过 简单 的 转换 来 
判断 一 个 连续 分 布 是 否 能 用 于 某 份 数据 集 的 建 模 。 


然而 ， 对 于 正 态 分 布 就 不 存在 这 样 的 变换 ， 但 有 一 种 称 为 正 态 概率 图 
(normal probability plot) 的 方法 。 它 是 基于 秩 变 换 (rankit) 的 ， 所 
谓 秩 变换 就 是 对 nn 个 服从 正 态 分 布 的 值 排序 ， 第 个 值 分 布 的 均值 就 
称 为 第 个 秩 变 换 。 




















注 3: 可 以 在 闲暇 时 间 了 解 一 下 ， 看 看 该 智商 测试 是 否 吸引 你 ， 你 觉得 测试 结果 可 靠 色 ? 
注 4: 这 方面 的 详细 信息 请 阅读 http://wikipedia.org/wiki/Christopher_Langan。 
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习题 4-9 
编写 一 个 Sample 函数 ， 生 成 6 个 服从 1=0，o =1 的 正 态 分 布 的 值 ， 将 
其 排序 后 返回 。 





编写 一 个 Samples 函数 ， 调 用 1000 次 sample， 返 回 一 个 包含 1000 
个 列表 的 列表 。 


用 zip 函数 处 理 这 个 列表 组 成 的 列表 ， 可 以 得 到 6 个 包含 1000 个 
值 的 列表 。 计 算 每 个 列表 的 均值 ， 输 出 结果 。 你 得 到 的 结果 大 概 是 


A 


这 样 : 





{~—1.2672, -0.6418, -0.2016, 0.2016, 0.6418, 1.2672} 
随 着 调用 sample 函数 次 数 的 增加 ， 结 果 会 收敛 到 这 些 值 。 


直接 计算 rankit 是 比较 麻烦 的 ， 但 有 一 些 计算 方法 可 以 求 出 近似 解 。 
其 中 一 个 快捷 且 容 易 实现 的 方法 如 下 。 


1. 从 1=0、o=1 的 正 态 分 布 中 生成 一 个 跟 你 的 数据 集 大 小 一 样 的 样本 。 
2. 将 数据 集中 的 值 排 序 
3. 画 出 数据 集中 排序 后 的 值 跟 第 一 步 生 成 的 随机 值 的 散 点 图 。 


对 于 大 数据 集 ， 这 个 方法 效果 很 好 。 对 于 较 小 的 数据 集 ， 可 以 通过 
生成 mln+1)-1 个 服从 正 态 分 布 的 值 来 提升 效果 ,其 中 是 数据 集 
的 大 小 ， 而 m 是 一 个 放大 因子 。 然 后 从 第 m 个 元 素 开始 选择 第 m 
个 元 素 。 


只 要 能 生成 所 需 的 随机 样本 ， 该 方法 同样 也 可 以 用 于 其 他 的 分 布 。 


-7 是 一 个 简单 的 出 生体 重 正 态 概率 图 。 这 个 图 的 曲 度 表 示 数 据 集 
跟 正 态 分 布 的 差异 ， 和 毕竟， 在 很 多 情况 下 ， 正 态 分 布 都 是 一 个 很 好 
(至 少 是 足够 好 ) 的 模型 。 
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图 4-7: 新 生 儿 体重 正 态 概率 图 


习题 4-10 
编写 一 个 NormalPlot 国 数 ， 输 入 是 一 个 序列 ， 生 成 一 个 正 态 概率 
图 。 答 案 在 http://thinkstats.com/rankit.py。 





用 relay.py 中 的 跑步 速度 生成 正 态 概率 图 。 正 态 分 布 适用 于 这 份 数据 
吗 ? 答案 在 http://thinkstats.com/relay_normal.py。 


4.5 对 数 正 态 分 布 


如 果 一 组 数值 做 对 数 变 换 后 服从 正 态 分 布 ， 我 们 就 称 其 服从 对 数 正 态 分 
布 (lognormal distribution)。 对 数 正 态 分 布 的 CDF 跟 正 态 分 布 一 样 ， 
只 是 用 logx 代替 原来 的 x: 











CDP omoa(X) = CDPF' mallog x) 


正 态 分 布 的 参数 通常 用 4 和 o 表 示 。 但 要 记 住 ,这 两 个 参数 的 意思 不 是 均 
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邮 


值 和 标准 差 ， 对 数 正 态 分 布 的 均值 是 expWw+c/2)， 标 准 差 则 比较 复杂 >。 
可 以 证 明 , 成 人 体重 的 分 布 是 近似 对 数 正 态 的 


美国 国家 慢性 病 预防 和 健康 促进 中 心 (NCCDPHP) 每 年 都 会 进行 一 次 
调查 ， 调 查 结果 会 作为 行为 风险 因素 监测 系统 (BRFSS) 的 一 部 分 。 
2008 年 ， 他 们 访谈 了 414 509 位 被 调查 者 ， 询 问 了 他 们 的 人 口 统计 特 
征 、 健 康 和 健康 风险 方面 的 问题 。 


这 份 调查 数据 中 包含 了 398 484 位 被 调查 者 的 体重 信息 (单位 是 千克 )。 
图 4-8 是 logw 的 分 布 ， 其 中 w 为 体重 ， 服 从 正 态 分 布 。 
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CDF 
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成 人 体重 ( 取 对 数 ， 单 位 kg) 
图 4-8: 成 人 体重 的 CDF (经 过 对 数 变 换 ) 

















注 5: 详 见 http://wikipedia.org/wiki/Log-normal_distribution。 

注 6: 我 是 在 http://mathworld.wolfram.com/LogNormalDistribution.html 网 页 上 看 到 这 种 观 
点 的 ， 但 未 注 明 来 源 。 随 后 ， 我 发 现 了 一 篇 提出 对 数 变换 并 解释 其 中 原因 的 论文 : 
Penman and Johnson, “The Changing Shape of the Body Mass Index Distribution Curve 
in the Population,” Preventing Chronic Disease, 2006 July; 3(3): A74。 其 网 址 是 http:// 
www.ncbi.nlm.nih.gov/pmc/articles/PMC1636707。 

注 7: Centers for Disease Control and Prevention (CDC). Behavioral Risk Factor Surveillance 




















System Survey Data. Atlanta, Georgia: U.S. Department of Health and Human Services, 


Centers for Disease Control and Prevention, 2008. 





正 态 模型 可 以 很 好 地 拟 合 数据 ， 但 即使 经 过 了 对 数 变换 ， 体 重 的 最 大 
值 还 是 超过 了 我 们 的 期 望 。 而 w 取 对 数 后 符合 正 态 分 布 ， 因 此 我 们 可 
以 判断 w 服从 对 数 正 态 分 布 。 
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从 http://thinkstats.com/CDBRFS08.ASC.gz 下 载 BRFSS 数据 ， 读 取 该 
数据 的 代码 在 http://thinkstats.com/brfss.py 上 。 运 行 brfss.py， 应 该 可 
以 看 到 它 会 在 屏幕 上 显示 出 一 些 变量 的 汇总 统计 量 。 

写 一 个 程序 从 BRFSS 中 读 取 成 人 体重 ， 生 成 w 和 1ogw 的 正 态 概率 
图 。 答 案 可 以 从 http://thinkstats.com/brfss_figs.py 下 载 。 
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城镇 人 口 分 布 是 帕 累 托 分 布 的 一 个 真实 例子 。 


美国 人 口 普 查 局 (U.S. Census Bureau) 发 布 的 人 口 数据 涵盖 全 美 所 有 
城镇 。 我 编写 了 一 个 小 程序 下 载 这 些 数 据 并 将 其 保存 到 文件 中 ， 程 序 
可 以 从 http://thinkstats.com/populations.py 下 载 。 

1. 看 一 下 程序 ， 弄 明白 它 能 做 什么 ， 然 后 运行 改 该 程序 下 载 和 处 理 
数据 。 

. 写 个 程序 计算 数据 中 14 593 个 城镇 的 人 口 分 布 ， 并 画图 。 

. 分别 画 出 线性 和 取 对 数 后 的 CDF， 看 看 分 布 的 形状 。 然 后 两 次 取 对 
数 后 画 出 CCDF， 看 看 该 分 布 是 否 符 合 帕 累 托 分 布 的 特征 。 

. 尝试 本 章 中 介绍 的 其 他 变换 ， 画 图 ， 看 看 是 否 存在 其 他 模型 能 更 好 
地 拟 合 这 个 数据 。 


关于 城镇 规模 的 分 布 ， 我 们 可 以 得 出 什么 结论 ?相关 代码 可 以 从 
http://populations_cdf.py 下 载 。 
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美国 国税 局 (IRS) 在 http://irs.gov/taxstats 上 提供 了 关于 个 人 所 得 税 
的 数据 。 


其 中 一 个 文件 中 记录 了 2008 年 个 人 收入 信息 ， 网 址 是 http://thinkstats. 
com/08inllsi.csv。 我 将 其 转换 为 有 逗 号 分 隔 文件 (CSV) ， 读 者 可 用 csv 
模块 读 取 该 文件 。 


从 该 数据 集中 抽取 收入 的 分 布 。 本 章 中 介绍 的 连续 分 布 是 否 能 较 好 地 
拟 合 该 数据 ? 答案 可 从 http://thinkstats.com/irs.py 下 载 。 


4.6 为 什么 需要 模型 


我 在 本 章 开 头 说 过 ， 真 实 世界 的 很 多 现象 都 可 以 用 连续 分 布 来 建 模 。 
读者 可 能 会 问 :“ 这 有 什么 用 ? ” 


跟 所 有 模型 一 样 ， 连 续 分 布 也 是 一 种 抽象 。 换 言 之 ， 就 是 会 舍弃 一 些 
无 关 紧要 的 细 市 。 例 如 ， 真 实 观察 到 的 分 布 中 可 能 会 有 测量 误差 或 是 
对 样本 来 说 很 奇怪 的 数据 ， 而 连续 模型 会 消除 这 些 无 关 紧 要 的 细节。 


连续 模型 也 是 一 种 数据 压缩 。 如 果 模 型 能 很 好 地 拟 合 数据 集 ， 那 么 少 
量 参数 就 可 以 描述 大 量 数据 。 

有 时 候 ， 我 们 会 尺 讶 地 发 现 某 种 自然 现象 服从 某 个 连续 分 布 ， 观 察 这 
些 现象 可 以 让 我 们 深入 理解 真实 的 系统 。 有 时 候 ， 我 们 可 以 解释 观察 
到 的 分 布 服从 特定 形式 的 原因 。 例 如 ， 帕 累 托 分 布 通常 是 正 反馈 生成 
过 程 的 结果 (也 称 为 偏好 依附 : preferential attachment， 详 见 http:// 


wikipedia.org/wiki/Preferential_attachment) 
































连续 分 布 可 用 于 数学 分 析 ， 我 们 会 在 第 6 章 中 介绍 。 





4.7 生成 随机 数 


连续 分 布 CDF 对 于 生成 随机 数 也 很 有 用 。 如 果 可 以 高 效 地 计算 出 
ICDF(p) (inverse CDE， 逆 CDF) ， 我 们 就 可 以 方便 地 生成 服从 各 种 
分 布 的 随机 值 。 方 法 是 首先 产生 0~1 之 间 服 从 均匀 分 布 的 值 ， 然 后 
选择 : 


x= ICDF(p) 
例如 ， 指 数 分 布 的 CDF 是 : 
p=1-e™ 
求解 x， 得 到 : 
x=-log (1-p)/ 
用 Python 写成 的 代码 如 下 所 示 ; 


def expovariate (lam): 
p = random.random() 





X = -math.log(1-p) / lam 

return FE 
我 们 用 lam 变量 表示 参数 是 因为 lambda 7 关键 字 。 大 部 分 
random.random 实现 都 可 以 返回 0， 但 不 能 返回 1， 所 以 1-p 有 可 能 


等 于 1， 但 不 可 能 等 于 0， 因 为 log0 i 
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编写 一 个 weibullvariate 国 数 ， 参 数 是 lam 和 k， 返 回 随机 值 ， 随 
机 值 服从 以 此 为 参数 的 威 布尔 分 布 。 


4.8 术语 


。 et (continuous distribution ) 


由 连续 函数 描述 的 分 布 。 





58 | 第 4 章 


。 语料库 (corpus) 


特定 语言 中 用 做 样本 的 正文 文本 。 


。 经 验 分 布 (empirical distribution ) 


样本 中 值 的 分 布 。 


。 误差 孙 数 (error function ) 


一 种 特殊 的 数学 函数 ， 因 源 自 误 差 度量 研究 而 得 名 。 


。 一 次 频 词 (hapaxlegomenon) 


表示 语料库 中 只 出 现 一 次 的 词 。 这 个 单词 在 本 书 中 迄今 出 现 了 两 次 。 


。 间隔 时 间 (interarrival time ) 


两 个 事件 的 时 间 间 隔 。 





。 模型 (model) 


一 种 有 效 的 简化 。 对 于 很 多 复杂 的 经 验 分 布 ， 连 续 分 布 是 不 错 的 


模型 。 


。 正 态 概率 图 (normal probability plot) 





一 种 统计 图 形 ， 用 于 表示 样本 中 排序 后 的 值 与 其 服从 正 态 分 布 时 的 
期 望 值 之 间 的 关系 。 





。 秩 变换 (rankit) 


元 素 的 期 望 值 ， 该 元 素 位 于 服从 正 态 分 布 的 已 排序 列表 中 。 
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在 第 2 章 中 ， 我 们 说 过 概率 就 是 频数 与 样本 数量 的 比值 。 这 是 概率 的 
一 种 定义 ， 但 并 不 是 唯一 定义 。 实 际 上 ， 概 率 的 含义 一 直 就 是 一 个 有 
争议 的 话题 。 


我 们 先 搁置 争议 ， 看 看 其 他 内 容 。 大 家 普遍 认同 概率 是 一 个 0 到 1 之 
间 的 值 ， 是 一 种 定量 度量 ， 对 应 于 定性 地 描述 某 一 件 事 发 生 的 可 能 性 
的 大 小 。 


被 赋予 概率 的 “事情 ” 称 为 事件 〈event) 。 如 果 五 表示 一 个 事件 ， 那 
么 P(E) 就 表示 该 事件 发 生 的 概率 。 检 测 E 发 生 情况 的 过 程 就 叫做 试 
验 (trial 并 


举 个 例子 ， 假 设 有 一 个 标准 的 六 面 骨 子 ， 计 算 抛 出 6 点 的 概率 。 每 抛 
一 次 就 是 一 次 试验 。 抛 出 6 点 就 是 成 功 ， 否 则 就 是 失败 。 在 某 些 情况 
下 , “成功 ”可 能 是 坏事 ， 而 “失败 ” 才 是 好 事 。 


如 果 我 们 有 一 个 包含 n 次 试验 的 有 限 样本 ， 其 中 我 们 观察 到 s 次 成 功 ， 
那么 成 功 的 概率 就 是 s/n。 如 果 这 个 试验 集合 是 无 限 的 ， 概 率 的 定义 就 
会 复杂 些 。 但 大 部 分 人 都 可 以 接受 用 一 系列 假想 的 重复 试验 来 表示 概 
率 ， 例 如 抛 硬币 或 搁 髓 子 。 
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在 遇 到 不 同事 件 的 概率 时 ， 我 们 就 遇 到 麻烦 了 。 例 如 ， 我 们 想 知 道 候 
选 人 赢得 选举 的 概率 。 但 每 次 选举 都 是 不 同 的 ， 因 此 不 存在 一 系列 的 
重复 试验 来 计算 概率 。 


遇 到 这 种 情况 ， 有 些 人 就 会 说 上 面 这 个 概率 的 概念 在 这 里 并 不 适用 。 
上 面 这 种 观点 称 为 频率 论 (frequentism) ， 就 是 用 频率 来 定义 概率 。 如 
果 没 有 一 系列 相同 的 试验 ， 那 就 不 存在 概率 。 


频率 论 在 哲学 上 是 没有 错误 的 ， 但 它 却 限 制 了 概率 的 使 用 范围 ， 只 限 
于 随机 的 物理 系统 (例如 原子 衰变 ) 或 因 无 法 预测 而 被 视 做 随机 的 系 
统 (例如 意外 死亡 )。 任 何 涉及 人 为 因素 的 情况 都 不 适用 。 























还 有 一 种 观点 是 贝 叶 斯 认识 论 (bayesianism)， 这 种 观点 将 概率 定义 
为 事件 发 生 的 可 信和 度 。 根 据 这 个 定义 ， 概 率 几 乎 能 用 于 所 有 情况 。 贝 
叶 斯 概率 的 一 个 问题 是 它 会 受 个 体 认 知 的 影响 : 对 于 同一 事件 ， 不 同 
的 人 会 因为 所 掌握 的 信息 不 一 样 而 对 其 发 生 的 可 信和 度 有 不 同 的 判断 。 
正 因为 如 此 ， 很 多 人 认为 贝 叶 斯 概率 要 比 频率 概率 更 主观 。 


举 个 例子 ， 他 信 “ 西 那 瓦 成 为 泰国 总 理 的 概率 有 多 大 ? 频率 学 派 会 说 
这 个 事件 没有 概率 ， 因 为 找 不 到 一 系列 试验 来 验证 这 个 问题 。 他 信和 是 
否 能 成 为 总 理 跟 概率 没有 关系 。 

有 反之， 贝 叶 斯 学 派 会 根据 其 自己 所 掌握 的 信息 赋予 这 个 事件 一 个 概 
率 。 例 如 ， 如 果 你 知道 2006 年 泰国 发 生 了 一 次 政变 ， 并 且 你 非常 肯 
定时 任 总 理 的 他 信 流 亡国 外 ， 你 就 有 可 能 将 这 个 概率 设 为 0.1。 这 个 
值 真正 代表 的 是 你 的 记忆 出 错 的 可 能 性 ， 或 者 他 信 复 职 的 可 能 性 。 
看 一 下 维基 百科 ， 你 就 会 知道 他 信 不 是 泰国 的 总 理 (在 我 写 这 本 书 的 
时 候 )。 有 了 这 个 信息 ， 你 可 能 就 会 将 这 个 概率 改 成 0.01， 反 映 了 维 
基 百 科 针 对 此 事件 出 错 的 可 能 性 。 


5.1 概率 法 则 


对 于 频率 概率 ， 我 们 可 以 推出 不 同事 件 概率 关系 的 法 则 。 其 中 最 著名 
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的 应 该 是 : 
P(4B) = P(4)P(B) 警告 : 该 法 则 并 非 在 所 有 情况 下 都 成 立 ! 


其 中 P(4B) 是 事件 A 和 事件 B 同时 发 生 的 概率 。 这 个 公式 很 好 记 ， 要 
记 住 的 就 是 它 的 成 立 是 有 前 提 条 件 的 ， 即 事件 A 和 事件 B 相互 独立 。 
换言之 ， 就 是 事件 4 的 发 生 对 事件 B 发生 的 概率 没有 任何 影响 ， 反 之 
亦 然 。 


例如 ， 如 果 事 件 4 是 抛 硬币 得 到 正面 ， 而 事件 B 是 折 角 子 得 到 一 点 ， 
那么 A 和 B 两 个 事件 就 是 相互 独立 的 ， 因 为 抛 硬币 的 结果 跟 找 骨 子 是 
没有 任何 关系 的 。 


但 如 果 我 是 毛 两 次 角 子 ， 事件 A 是 至 少 得 到 一 个 六 点 ， 而 事件 B 是 得 
到 两 个 六 点 ， 那 4 和 B 就 不 是 独立 的 。 因 为 ， 如 果 我 知道 事件 4 发 生 
了 ， 那 事件 B 发 生 的 概率 就 会 上 升 ， 而 如 果 我 知道 事件 B 发 生 了 ， 那 
事件 4 发 生 的 概率 就 是 1。 


当 事 件 4 和 B 不 独立 时 ， 通 常 需要 计算 条 件 概 率 P(4|B)， 即 在 事件 B 
已 经 发 生 的 情况 下 事件 4 发 生 的 概率 : 




































































P(AB) 
P(B) 


据 此 ， 我 们 可 以 得 到 更 一 般 的 关系 : 


P(A|B)= 





P(AB) = P(A)P(B|A) 


这 个 公式 稍微 难 记 点 儿 ， 但 你 把 它 用 语言 描述 一 下 就 非常 好 理解 ， 
“两 件 事 情 同 时 发 生 就 是 第 一 件 事 发 生 后 第 二 件 事情 也 发 生 了 ”。 


事件 发 生 的 先后 顺序 是 没有 影响 的 ， 所 以 我 们 也 可 以 这 样 写 : 


P(AB) = P(B)P(A|B) 





无 论 事件 4 和 B 是 否 独 立 ， 这 个 关系 都 是 成 立 的 。 如 果 它 们 是 独立 
的 ， 那 么 PC4|B) = P(4)， 我 们 就 得 到 了 一 开始 说 的 那个 公式 。 
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因为 概率 的 范围 是 0 到 1， 所 以 很 容易 证 明 : 


P(AB) < P(A) 








想象 一 下 ， 某 俱乐部 只 接受 符合 特定 要 求 4 的 人 成 为 其 会 员 。 现 在 假 
设 他 们 增加 了 一 个 新 的 要 求 B， 显 然 俱乐部 的 规模 会 变 小 ， 或 者 ， 如 果 
所 有 成 员 都 满足 新 要 求 ， 俱 乐 部 规模 保持 不 变 。 但 有 了 时候， 人 们 极 不 擅 
长 此 类 分 析 。 关 于 这 类 现象 的 例子 和 相关 讨论 可 以 访问 http://wikipedia. 


org/wiki/Conjunction_fallacy。 


习题 5-1 
掷 两 次 山 子 ， 总 点 数 是 八 ， 那 么 其 中 一 次 是 六 点 的 概率 是 多 少 ? 


习题 5-2 
掷 100 次 山子 ， 全 部 都 是 六 点 的 概率 是 多 少 ? 没 有 六 点 的 概率 是 多 少 ? 


习题 5-3 
下 面 的 问题 来 自 Mlodinow 的 The Drunkarqd’s Walk 一 





Ey 


jp 


. 家 里 有 两 个 小 孩 ， 都 是 女孩 的 概率 是 多 少 ? 

. 家 里 有 两 个 小 孩 ， 已 知 其 中 至 少 有 一 个 女孩 ， 两 个 都 是 女孩 的 概率 
是 多 少 ? 

. 家 里 有 两 个 小 孩 ， 已 知 年 龄 较 大 的 一 个 是 女孩 ， 两 个 都 是 女孩 的 概 
率 是 多 少 ? 

. 家 里 有 两 个 小 孩 ， 已 知 其 中 有 一 个 叫 Florida 的 女孩 ， 两 个 都 是 女 
孩 的 概率 是 多 少 ? 


可 以 假设 任意 一 个 小 孩 是 女孩 的 概率 是 1/2 (在 很 多 方面 都 适用 )， 而 
家 里 不 同 小 孩 的 性 别 是 独立 事件 。 还 可 以 假设 女孩 叫 Florida 的 概率 
比较 小 。 
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5.2 蒙 提 霍 尔 问题 

蒙 提 霍 尔 问题 (The Monty Hall problem) 有 可 能 是 历史 上 最 富 争议 的 
概率 问题 。 问 题 很 简单 ， 但 正确 答案 与 人 们 的 直觉 完全 不 同 ， 所 以 很 
多 人 难以 接受 。 不 少 聪明 人 不 仅 自 己 弄 错 了 ， 还 公开 为 错误 的 结果 高 
声 辩护 。 

蒙 提 … 堆 尔 原本 是 美国 电视 游戏 节目 eps Make a Deal 的 主持 人 ， 蒙 
提 霍 尔 问 题 就 是 源 自 该 节目 中 的 一 个 游戏 。 如 果 你 是 参赛 者 ， 以 下 是 
节目 现场 的 情况 。 


。 你 会 看 到 三 遍 关 闭 的 门 ， 蒙 提 会 告诉 你 每 遍 门 后 的 奖励 : 其 中 有 一 

局 门 后 面 是 一 辆 车 ， 而 另外 两 扇 门 后 面 则 是 诸如 花生 桨 或 假 指甲 之 

类 不 大 值钱 的 东西 。 奖 品 的 摆 放 是 随机 的 。 

你 的 目标 就 是 要 猜 出 哪 扇 门 后 是 汽车 。 如 果 猜 对 ， 汽 车 就 归 你 了 。 

我 们 把 你 选择 的 门 称 为 A 门 ， 其 他 两 扇 门 分 别 是 B 门 和 C 门 。 

在 打开 你 所 选择 的 A 门 之 前 ， 驼 提 往往 会 打开 B 门 或 C 门 扰乱 你 

的 选择 。( 如 果 汽 车 确实 是 在 A 门 后 面 ， 那 蒙 提 随机 打开 B 门 或 C 

门 都 没有 问题 。) 

。 接 下 来 ， 蒙 提 会 给 你 一 个 机 会 : 你 是 坚持 原来 的 选择 ， 还 是 选择 另 
一 忆 示 打开 的 门 。 

问题 是 ， 坚 持原 来 的 选择 或 选择 另 一 局 门 ， 会 有 什么 不 同 吗 ? 


大 部 分 人 赁 直觉 觉得 这 没有 区 别 。 因 为 ， 还 剩 下 两 扇 门 ， 所 以 汽车 在 
A 门 后 面 的 概率 是 50%。 

但 这 就 错 了 。 实 际 上 ， 坚 持 选 择 A 门 ， 获 胜 的 机 会 就 只 有 1/3; 而 如 
果 选 择 另 一 扇 门 ， 获 胜 的 机 会 就 是 2/3。 接 下 来 我 会 解释 原因 ， 但 信 
不 信 由 你 。 

其 中 的 关键 在 于 要 明白 ， 这 里 有 三 种 可 能 的 情况 : 汽车 可 能 会 在 A 门 
后 ， 也 可 能 在 了 B 门 或 C 门 后 面 。 因 为 奖品 是 随机 摆 放 的 ， 所 以 每 种 情 












































况 的 概率 都 是 1/3 。 


如 果 坚 持 选 择 A 门 ， 那 么 就 只 有 在 一 开始 汽车 就 在 A 门 后 面 的 情况 下 
才能 获胜 ， 获 胜 的 概率 是 1/3。 

但 如 果 选 择 另 一 局 没 打开 的 门 ， 那 么 在 B 或 C 后 面 有 车 这 两 种 情况 下 
都 会 获胜 ， 总 体 的 获胜 概率 就 是 2/3。 

你 可 能 还 是 不 信 ， 没 关系 ， 很 多 人 都 跟 你 一 样 。Paul Erd6s 的 一 位 朋 
友 跟 他 解释 这 种 情况 时 ， 他 回答 :“ 不 对 ， 这 绝 不 可 能 ， 两 者 没有 区 


别 。”， 














穷尽 各 种 解释 都 不 能 说 服 他 。 最 终 ， 只 能 用 计算 机 模拟 让 他 接受 这 个 
结果 
习题 5-4 


写 一 个 模拟 蒙 提 替 尔 问题 的 程序 ， 用 这 个 程序 估计 坚持 选择 A 门 和 选 
择 另 一 局 门 的 获胜 概率 分 别 是 多 少 。 

然后 阅读 http://wikipedia.org/wiki/Monty_Hall_problem 上 关于 此 问题 
的 讨论 。 

哪个 更 有 说 服 力 ， 是 模拟 还 是 各 种 解释 ?为 什么 ? 


习题 5-5 
理解 蒙 提 埠 尔 问题 的 重点 在 于 要 明白 蒙 提 打 开 一 局 门 实际 上 是 给 你 提 
供 了 信息 。 想 象 一 下 ， 如 果 蒙 提 不 知道 奖品 在 哪里 ， 随 机 打开 B 门 或 
C 门 ,会 怎么 样 ? 

如 果 打 开 的 门 后 是 汽车 ， 游 戏 结束 ， 你 输 了 ， 再 没有 选择 的 机 会 。 否 
则 ， 你 是 应 该 坚持 还 是 改变 选择 ? 








注 1: 参见 Hoffman 的 The Man Who Loved Only Numbers 一 书 的 83 页 。 
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5.3 庞 加 莱 


享 利 . 庞 加 莱 (Henri Poincaré) 是 法 国 著名 的 数学 家 ，1900 年 左右 
在 索 邦 大 学 任教 。 下 面 这 个 关于 他 的 传闻 可 能 是 杜撰 的 ， 但 这 里 有 一 
个 很 有 意思 的 概率 问题 。 


庞 加 菜 怀疑 当地 的 面包 屋 出 售 的 大 面包 的 重量 并 没有 他 们 所 宣传 的 
i 所 以 他 一 年 中 每 天 都 去 买 一 个 大 面包 ， 然 后 回 家 称 

。 到 了 年 底 ， 他 画 出 了 重量 的 分 布 图 ， 并 证 明了 该 分 布 服从 均值 
es 标准 差 50 克 的 正 态 分 布 。 他 把 这 个 证 据 提 交 给 了 监管 部 门 ， 
监管 部 门 警告 了 面包 屋 。 


第 二 年 ， 庞 加 莱 继 续 每 天 测量 他 所 购买 的 面包 的 重量 。 到 了 年 底 ， 
发 现 平 均 重 量 是 1000 克 ， 跟 宣传 的 一 样 。 as 
了 面包 屋 ， 而 这 次 监管 部 门 处 罚 了 面包 屋 。 


为 什么 ? 因为 重量 分 布 是 不 对 称 的 。 跟 正 态 分 布 不 一 样 ， 这 个 分 布 向 
右 人 和 倾斜， 换言之 就 是 面包 屋 做 的 面包 依然 只 有 950 克 ， 只 是 故意 把 比 
较 重 的 面包 卖 给 了 庞 加 莱 。 














习题 5-6 

写 一 个 程序 模拟 面包 屋 ， 从 均值 950 克 、 标 准 差 50 克 的 分 布 中 随机 
选 出 n 块 面包 ， 把 其 中 最 重 的 一 块 给 庞 加 菜 。n 等 于 什么 值 会 得 到 一 
个 均值 1000 克 的 分 布 ? 标准 差 是 多 少 ? 


将 这 个 分 布 跟 均值 、 标 准 差 相 同 的 正 态 分 布 作 比 较 。 两 者 形状 上 的 差 
异 是 否 足 以 说 服 监管 部 门 ? 





习题 5-7 
如 果 跳 舞 时 舞伴 是 随机 安排 的 ， 女 的 比 男 的 高 的 比例 是 多 少 ? 


在 BRFSS ( 见 4.5 节 “对 数 正 态 分 布 ")， 身 高 的 分 布 基本 上 是 
态 分 布 ， 男 性 身高 分 布 的 U=178 cm,， 0 =59.4 cm， ee 
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HU=163 cm，o =52.8 cm。 


插 一 句 ， 读 者 可 能 发 现 男性 身高 的 标准 差 比较 大 ， 这 是 否 意味 着 男性 
身高 的 变化 更 大 ? 比较 两 组 的 变化 程度 可 以 计算 变异 系数 (coefficient 
of variation) ， 即 标准 差 除 以 均值 ，cw。 根 据 这 个 指标 ， 女 性 身高 的 
变化 更 大 一 些 。 


5.4 其 他 概率 法 则 


如 果 两 个 事件 是 互 斥 的 ， 即 两 者 中 只 有 一 个 会 发 生 ， 那 么 两 者 的 条 件 
概率 等 于 0: 


P(A|B)=P(B|A)=0 
在 这 种 情况 下 ， 计 算 任 一 事件 的 概率 很 容易 : 
P(A 或 B)=P(4)+P(B) 警告 : 某 些 情况 下 是 不 成 立 的 。 


但 要 记 住 ， 只 有 在 事件 互 斥 的 情况 下 这 个 公式 才 成 立 。 在 一 般 情 况 
下 ， 事 件 4 发生, 或 B 发 生 , 或 两 者 都 发 生 的 概率 是 : 





























P(4 或 B)=P(A)+P(B)-P(AB) 
减 去 P(4B) 是 因为 它 被 计算 了 两 次 。 


例如 ， 抛 两 枚 硬币 ， 至 少 一 次 反面 朝 上 的 概率 是 1/2+1/2-1/4。 如 果 不 
减 去 1/4 的 话 ， 两 次 都 正面 朝 上 的 概率 就 会 被 算 两 次 。 如 果 是 抛 三 个 
硬币 的 话 ， 这 个 问题 会 更 清楚 。 








习题 5-8 
所 两 次 散 子 ， 至 少 得 到 一 个 六 点 的 概率 是 多 少 ? 


习题 5-9 
计算 事件 A 或 B 发 生 ， 且 两 者 不 会 同时 发 生 的 概率 一 般 用 什么 公式 ? 
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5.5 二 项 分 布 


掷 100 次 骨 子 ， 全 部 都 是 六 点 的 概率 是 (1/6)”， 而 一 个 六 点 都 没有 的 
概率 是 (5/6)”。 


这 都 很 简单 ， 但 通常 我 们 更 想 知 道 得 到 个 六 点 的 概率 , 大 是 0 到 100 
间 的 任意 数 。 答 案 就 是 二 项 分 布 (binomial distribution) ， 其 PMF 是 : 


PMFO = (2 pp 





其 中 是 试验 总 次 数 ,，p 是 成 功 的 概率 ,是 成 功 的 次 数 。 
二 项 系数 可 以 读 作 “n 中 选 六 ， 可 以 直接 计算 出 来 : 
ny nl 
Kk) Kl(n—A! 
也 可 以 这 样 : 
1 _ (7 一 n—l1 
gj (x Jel 
两 个 极端 情况 : 如 果 n=0， 结 果 就 是 0， 如 果 k=0， 结 果 就 是 1。 访 问 


http://thinkstats.com/thinkstats.py， 可 以 看 到 计算 二 项 系数 的 Binom 
函数 oo 





习题 5-10 
抛 100 次 硬币 ， 应 该 可 以 得 到 50 次 正面 朝 上 ,但 恰好 50 次 正面 朝 上 
的 概率 是 多 少 ? 


5.6 连 胜 和 手感 


人 们 对 随机 过 程 的 直觉 往往 跟 事 实 有 一 定 差 距 。 如 果 要 某 人 生成 一 些 
随机 数 ， 他 可 能 会 给 你 一 些 看 上 去 随机 ， 但 实际 上 要 比 真 正 的 随机 数 
列 有 序 得 多 的 数字 。 反 之 ， 给 他 一 个 真正 的 随机 数列 ， 他 也 能 从 中 找 
出 一 些 并 不 存在 的 模式 。 








第 二 个 现象 的 一 个 例子 是 很 多 人 在 体育 运动 中 相信 连 胜 或 连 败 : 大 家 
往往 认为 一 段 时 间 比 较 成 功 的 运动 员 “ 手 感 好 ”， 而 不 成 功 的 运动 员 


则 是 “ 走 霉 运 。 


统计 学 家 在 各 种 体育 运动 中 测试 了 这 些 假设 , 但 所 有 的 结果 都 是 一 致 
的 : 不 存在 诸如 连 胜 、 连 败 一 类 的 东西 "?。 假 设 每 次 比赛 都 是 独立 事 
件 ， 看 到 多 次 连 胜 或 者 连 败 的 情况 也 很 正常 。 这 并 不 能 说 明 这 次 获胜 
和 下 次 获胜 之 间 有 什么 联系 。 


另 一 个 类 似 现 象 是 聚 类 错觉 (clustering illusion)， 指 看 上 去 好 像 
有 某 种 特点 的 聚 类 实际 上 是 随机 的 【参见 http://wikipedia.org/wiki/ 


Clustering_illusion ) 。 





要 检查 某 个 聚 类 结果 是 否 有 意义 ， 可 以 使 用 模拟 随机 系统 ， 看 看 在 
随机 情况 下 产生 类 似 聚 类 的 概率 。 这 个 过 程 就 叫做 蒙特 目 罗 模拟 
(Monte Carlo simulation)， 因 为 生成 随机 数 的 方法 源 自 赌场 (蒙特 卡 
罗 是 有 名 的 赌 城 ) 。 


习题 5-11 
如 果 一 场 篮球 比赛 的 10 名 参赛 选手 每 人 都 投了 15 次 笑 ， 每 次 命中 的 
概率 是 S0% ， 那 么 一 场 比赛 中 至 少 有 一 名 球员 投篮 命中 10 次 的 概率 
是 多 少 ? 另 假设 一 个 赛季 是 82 场 比 赛 ， 如 果 你 看 完整 个 赛季 ， 那 么 
至 少 看 到 一 次 连续 10 次 命中 或 连续 10 次 不 命中 的 概率 是 多 少 ? 

这 个 问题 说 明了 蒙特 卡 罗 模 拟 的 优 缺 点。 其 优点 是 编写 模拟 简单 快 
速 ， 不 需要 对 概率 有 深入 理解 ,缺点 则 是 对 于 罕见 事件 的 模拟 需要 很 
长 的 时 间 。 稍 做 点 儿 分 析 可 以 省 下 大 量 的 计算 资源 。 








习题 5-12 
1941 年 ，Joe DiMaggio 在 连续 56 场 比赛 中 都 有 得 分 记录 。 很 多 棒球 





注 2: 例如 ， 参 见 Gilovich、Vallone 和 Tversky 的 “The hot hand in basketball: On the misperception 
of random sequences, ”1985。 
往 3: 详 见 http://wikipedia.org/wiki/Hitting_streak。 
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爱好 者 都 觉得 这 是 体育 史上 一 项 伟大 的 成 就 ， 因 为 这 太 少 见 了 。 


用 蒙特 卡 罗 模 拟 估 计 接 下 来 的 一 个 世纪 中 ， 棱 球 大 联盟 比赛 中 有 球员 
在 连续 57 场 或 更 多 场 比赛 中 有 得 分 记录 的 概率 。 


习题 5-13 

根据 疾 控 中 心 (CDC) 的 定义 ， 癌症 聚集 (cancer cluster) 指 的 是 
“在 一 段 时 间 内 ， 某 个 地 区 的 人 群 中 的 癌症 病例 高 于 预期 值 ”。* 

很 多 人 觉得 癌症 聚集 是 环境 恶化 的 证 据 ， 但 很 多 科学 家 和 统计 学 家 觉 
得 研究 癌症 聚集 纯 属 浪费 时 间 。” 为 什么 ? 甚 中 一 个 原因 就 是 癌症 聚集 
是 神枪手 麻 误 的 典型 例子 (Sharpshooter Fallacy， 详 见 http://wikipedia. 


org/wiki/Texas_sharpshooter_fallacy ) 。 


不 过 ， 只 要 有 人 报告 癌症 聚集 ，CDC 还 是 有 责任 进行 调查 。 根 据 他 们 
的 网 页 : 
调查 员 先 确定 “病例 ”的 定义 ， 所 关注 的 时 间 段 ， 以 及 有 风 
险 的 人 群 。 然 后 计算 预期 值 ， 并 将 其 与 实际 观察 到 的 值 作 比 
较 。 如 果 观察 值 和 预期 值 的 比值 大 于 1 且 差 异 是 统计 显著 的 ， 
就 确认 了 存在 聚集 现象 。 
.假设 某 种 癌症 每 年 的 发 病 率 是 千 分 之 一 。 如 果 对 100 个 人 跟踪 10 
年 ， 应 该 能 观察 到 一 例 病 人 。 如 果 有 两 例 也 并 不 奇怪 ， 但 超过 两 例 
就 比较 少见 了 。 
写 个 程序 模拟 大 量 人 群 的 10 年 期 发 病情 况 ， 估 计 出 总 病例 数 的 分 布 。 


. 当 某 个 观察 值 在 完全 随机 的 情况 下 出 现 的 概率 ( 即 p 值 ) 小 于 5% 
时 ， 我 们 就 说 它 是 统计 显著 的 。 在 100 个 人 历经 10 年 的 观察 数据 
中 ， 要 出 现 多 少 病例 才能 满足 这 个 要 求 ? 

.现在 将 10 000 个 人 分 为 100 个 由 100 人 组 成 的 人 群 ， 跟 踪 10 年 。 
其 中 至 少 有 一 个 人 群 出 现 “ 统 计 显 著 ” 聚 集 的 概率 是 多 少 ? 如 果 把 
Pp 值 的 要 求 改 成 1% 呢 ? 


ps 


[ee 


[SS] 





注 4: 源 自 http://cdc.gov/nceh/clusters/about.htm。 
注 5: 参见 Gawande, “The Cancer Cluster Myth,” New Yorker, Feb 8, 1997。 





4. 现在 将 10 000 人 放 到 100 乘 100 的 格子 中 ， 跟 踪 10 年 。 其 中 至 少 
有 一 个 10 乘 10 的 方块 出 现 统 计 显 著 聚 集 的 概率 是 多 少 ? 

5. 最 后 ， 对 方 格 中 的 10 000 个 人 跟踪 30 年 。 其 中 某 个 10 乘 10 的 方 
块 在 其 10 年 间隔 中 出 现 统 计 显著 聚集 的 概率 是 多 少 ? 


5.7 贝 叶 斯 定理 


贝 叶 斯 定理 (Bayes's theorem) 描述 的 是 两 个 事件 的 条 件 概 率 之 间 的 
关系 。 条 件 概率 通常 写成 P(4|8)， 表 示 的 是 在 事件 B 已 发 生 的 情况 下 
事件 4 发 生 的 概率 。 贝 叶 斯 定理 用 公式 表达 如 下 : 
P(B|A)P(A) 

P(B) 
为 了 说 明 这 个 公式 的 正确 性 ， 不 妨 把 事件 A 和 事件 B 同时 发 生 的 概率 
写作 P(4B): 


P(A|B) = 





P(AB)=P(A)P(BIA) 


同样 过 





P(AB)=P(B)P(A|B) 
也 是 成 立 的 ， 因 此 : 
P(B)P(AIB)=P(A)P(BIA) 
两 边 都 除 以 P(B) 就 得 到 了 贝 叶 斯 定理 。 
贝 叶 斯 定理 通常 用 于 解释 某 一 特定 现象 的 证 据 互 如 何 影响 假设 互 的 


概率 : 


PB = POCO 全 


P(E) 
这 个 等 式 的 意思 是 : 在 看 到 E 之 后 五 的 概率 P(H|IE)， 等 于 看 到 该 证 
据 前 五 的 概率 PL8)， 乘 以 假设 五 为 真 的 情况 下 看 到 该 证 据 的 概率 


注 6: 详 见 http://wikipedia.org/wiki/Q.E.D.。 
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P(E|D) 与 在 任何 情况 下 看 到 该 证 据 的 概率 P(E) 的 比值 P(E|IH)/P(E)。 





这 种 解读 贝 叶 斯 定理 的 方法 叫做 “历时 性 ”(diachronic) 解读 ， 
为 这 描述 了 假设 成 立 的 概率 随时 间 发 生 的 变化 ， 这 种 变化 通常 都 
是 因为 出 现 了 新 证 据 。 在 这 种 情况 下 ，P(CD) 称 为 先 验 概 率 (prior 
probability) ， 而 P(2IE) 称 为 后 验 概率 (posterior probability)。P(E|D) 
是 证 据 的 似 然 值 (likelihood of evidence), P(E) 是 归 一 化 常量 


(normalization constant ) 。 


贝 叶 斯 定理 的 一 个 经 典 应 用 就 是 解读 临床 检测 。 例 如 ， 学 校 和 工作 单 
位 违禁 药物 检查 正 变 得 越 来 越 普 遍 ( 详 见 http://aclu.org/drugpolicy/ 
testing)。 采 用 这 些 检查 的 用 人 单位 希望 这 些 检查 是 敏感 的 ， 即 当 样 
品 中 有 药物 〈 或 相关 代谢 物 ) 时 要 得 到 一 个 阳性 结果 ， 而 且 要 是 特异 
的 ， 即 当 样品 中 没有 药物 时 得 到 阴性 结果 。 








根据 美国 医学 协会 杂志 (Journal of the American Medical Association) 
的 估计 “"， 常 规 药检 的 灵敏 度 大约 是 60%， 特 异性 大 概 是 99%。 


现在 假设 这 种 常规 检查 适用 于 实际 使 用 违禁 药物 比例 为 5% 的 职工 人 
群 ， 那 么 检查 结果 为 阳性 的 雇员 中 有 多 少 真正 使 用 了 违禁 药物 ? 


在 贝 叶 斯 理论 中 ， 我 们 要 计算 的 就 是 当 检 查 结果 为 阳性 时 ， 用 药 的 概 
率 P(D|E)。 根 据 贝 叶 斯 定理 : 

P(E|D) 

P(E) 

先 验 概率 P(D) 就 是 我 们 看 到 检查 结果 之 前 用 药 的 概率 ( 即 5%)， 似 
然 值 P(EID) 就 是 使 用 了 违禁 药 的 情况 下 检查 结果 为 阳性 的 概率 ( 即 灵 
敏 度 )。 


计算 归 一 化 常量 P(E) 会 稍微 困难 点 。 要 萎 虑 两 个 概率 ，P(EID) 和 
P(EIN)， 其 中 N 代表 受 试 者 没有 用 药 的 假设 : 








P(D|B = PD) 





注 7: 我 是 从 Gleason 和 Barnum 的 “Predictive Probabilities In Employee Drug-Testing” 一 
文中 看 到 这 些 数据 的 ， 网 址 是 http://piercelaw.edu/risk/vol2/winter/gleason.htm。 











P(E)=P(D)P(EID)+PN) PENIN) 
假 阳 性 的 概率 P(EIN) 跟 特异 性 是 互补 的 ， 即 1%。 把 这 些 放 在 一 起 ， 
我 们 得 到 : 


PD|B PD)PEID) 


P(D)P(E|D) + P(N)P(EIN) 





代入 相应 的 值 ， 我 们 得 到 P(D|E) = 0.76， 这 意味 着 每 四 个 检查 结果 为 
阳性 的 人 中 大 概 有 一 个 是 被 冤枉 的 。 





习题 5-14 
写 个 程序 ， 输 入 参数 是 用 药 的 实际 比例 、 监 测 的 灵敏 度 和 特异 性 ， 然 
后 根据 贝 叶 斯 定理 计算 PCDIE)。 


假设 将 同样 的 检测 用 到 用 药 比例 为 1% 的 人 群 ， 检 查 结果 为 阳性 的 人 
真正 用 药 的 概率 是 多 少 ? 





习题 5-15 
这 个 练习 来 自 http://wikipedia.org/wiki/Bayesian_inference。 


假设 有 两 碗 饼干 。 一 个 碗 中 有 10 片 巧克力 饼干 和 30 片 普通 饼 
干 ， 而 另 一 个 碗 中 巧克力 饼干 和 普通 饼干 各 有 20 片 。 我 们 的 
朋友 Fred 随 机 选 了 一 个 碗 ， 然 后 随机 地 从 中 取出 一 片 饼干 。 那 
么 Fred 从 第 一 个 碗 中 取出 普通 饼干 的 概率 是 多 少 ? 


习题 5-16 
蓝 色 的 M&M 巧克力 豆 是 1995 年 上 市 的 。 在 那 之 前 ， 一 袋 混 合 M&M 
巧克力 豆 的 组 成 是 30% 棕色 、20% 黄色 、20% 红色 、10% 绿色 、 
10% 柳 色 和 10% 褐色 ; 1995 年 之 后 ， 其 组 成 是 24% 蓝 色 、20% 绿 
色 、16% 柳 色 、14% 黄色 、13% 红色 和 13% 棕色 。 


我 的 一 个 朋友 有 两 袋 M&M， 其 中 一 袋 是 1994 年 产 的 ， 另 一 袋 是 
1996 年 产 的 。 但 他 没有 告诉 我 到 底 哪 一 袋 是 1994 年 的 ， 哪 一 袋 是 
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1996 年 的 。 现 在 朋友 从 两 袋 中 各 取出 一 粒 巧 克 力 豆 ， 一 粒 是 黄色 ， 一 
粒 是 绿色 。 黄 色 巧 克 力 豆 来 自 1994 年 那 袋 的 概率 是 多 少 ? 


习题 5-17 


这 个 练习 改编 自 MacKay 的 Information Theory, Inference, and Learning 
Algorithms 一 书 。 


猫 王 Elvis Presley 有 一 个 双胞胎 兄弟 ， 但 不 幸 在 出 生 时 就 天 折 了 。 根 
据 维基 百科 上 对 双胞胎 的 介绍 : 














双胞胎 占 全 世界 人 口 的 比例 大 概 是 1.9%， 同 卵 双 胞 胎 的 比例 
大 概 是 0.2%， 占 所 有 双胞胎 的 8%。 


那么 ，Elvis 与 天 折 的 兄弟 为 同 卵 双 胞 胎 的 概率 是 多 少 ? 


5.8 术语 


。 贝 叶 斯 认识 论 (Bayesianism ) 
一 种 对 概率 更 泛 化 的 解释 ， 用 概率 表示 可 信 的 程度 。 
。 变异 系数 (coefficient of variation ) 


度量 数据 分 散 程度 的 统计 量 ， 按 集中 趋势 归 一 化 ， 用 于 比较 不 同 均 
值 的 分 布 。 


。 事件 (event) 
按 一 定 概率 发 生 的 事情 。 
。 失败 (failure) 
事件 没有 发 生 的 试验 。 
。 频率 论 (frequentism ) 
对 概率 的 一 种 严格 解读 ， 认 为 概率 只 能 用 于 一 系列 完全 相同 的 试验 。 


。 独立 (independent) 
若 两 个 事件 之 间 相互 没有 影响 ， 就 称 这 两 个 事件 是 独立 的 。 


























证 据 的 似 然 值 (likelihood of the evidence ) 
贝 叶 斯 定理 中 的 一 个 概念 ， 表 示 假 设 成 立 的 情况 下 看 到 该 证 据 的 
概率 。 


蒙特 卡 罗 模 拟 (Monte Carlo simulation ) 
通过 模拟 随机 过 程 计算 概率 的 方法 ( 详 见 http://wikipedia.org/wiki/ 
Monte_Carlo_method ) 。 


归 一 化 常量 (normalizing constant ) 

贝 叶 斯 定理 中 的 分 母 ， 用 于 将 计算 结果 归 一 化 为 概率 。 
后 验 (posterior) 

贝 叶 斯 更 新 后 计算 出 的 概率 。 

先 验 (prior) 

贝 叶 斯 更 新 前 计算 出 的 概率 。 

成 功 (success) 

事件 发 生 了 的 试验 。 





试验 (trial ) 

对 一 系列 事件 是 否 可 能 发 生 的 尝试 。 
更 新 (update) 

用 数据 修改 概率 的 过 程 。 





第 6 章 


分 布 的 运算 





6.1 偏 度 


偏 度 (skewness) 是 度量 分 布 图 数 不 对 称 程度 的 统计 量 。 对 于 一 个 给 
定 的 序列 x;,， 样 本 偏 度 的 定义 为 : 





Si = ma/m2” 
一 中 2 
72 = 7 WD 
二 纪 3 
m3 = 2 人 一 内 


这 里 m, 是 均 方 离 差 〈 即 方差 ) ，ms 是 平均 的 立方 离 差 。 


负 的 偏 度 表 示 分 布 向 左 偏 〈(skews left) ， 此 时 分 布 函数 的 左边 会 比 右 
边 延 伸 得 更 长 ， 正 的 偏 度 表示 分 布 函数 向 右 偏 。 


上 述 计算 样本 偏 度 的 公式 在 实际 应 用 中 使 用 得 并 不 多 。 因 为 如 果 样本 
中 存在 异常 值 ， 那 么 这 些 异 常 值 可 能 对 偏 度 的 值 产生 非常 大 的 影响 。 


另外 一 个 评价 分 布 函数 非 对 称 程度 的 方法 是 比较 均值 和 中 位 数 的 大 








ZX 


小 。 相 比 于 中 位 数 而 言 ， 均 值 更 容易 受 极端 值 的 影响 ， 所 以 如 果 一 个 
分 布 国 数 是 向 左 偏 的 ， 那 么 该 分 布 的 均值 就 会 小 于 中 位 数 。 


皮尔 逊 中 值 偏 度 系数 (Pearson's median skewness coefficient) 就 是 一 
个 基于 这 种 思想 的 偏 度 度量 (其 中 岂 为 均值 ，:p 为 中 位 数 ) : 
8p = 3(4— Hp)/o 


该 统计 量 是 偏 度 的 一 个 便 棒 估计 ， 它 对 异常 值 的 影响 不 敏感 。 


请 编写 一 个 skewness 函数 ， 计 算 一 组 样本 数据 的 g,。 


请 计算 怀孕 周期 和 出 生体 重 分 布 的 偏 度 ， 这 两 个 结果 是 否 与 分 布 的 形 
状 一 致 ? 


请 编写 一 个 PearsonSkewness 国 数 ， 并 用 这 个 函数 计算 这 些 分 布 的 
Sm。 请 比较 g, 和 g| 计算 结果 的 差别 。 


习题 6-2 

乌 比 网 湖 效应 ”(Lake Wobegon effect) 是 一 种 有 趣 的 心理 学 现象 ， 也 
称 虚 幻 的 优越 性 〈 illusory superiority) ， 是 指 人 们 通常 会 觉得 自己 各 
方面 的 能 力 都 比 社会 上 的 平均 水 平 高 的 一 种 心理 倾向 。 例 如 ， 在 一 些 
研究 中 ， 超 过 80% 的 受 调查 者 认为 他 们 的 罗 驶 技术 高 于 平均 水 平 ( 参 
见 http:/wikipedia.org/wiki/Illusory_superiority ) 。 





假如 社会 平均 水 平 指 的 是 中 位 数 ， 那 么 上 述 结 果 在 逻辑 上 是 不 可 能 
现 的 。 但 是 如 果 我 们 将 平均 水 平定 义 为 均值 ， 那 么 上 述 结 果 就 有 可 能 
出 现 ， 虽然 可 能 性 不 大 。 


想 想 ， 长 两 条 腿 以 上 的 人 会 占 总 人 口 的 多 少 呢 ? 








注 1: 参见 http://wikipedia.org/wiki/Lake_Wobegon。 
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习题 6-3 
美国 国税 局 (IRS) 在 其 网 站 http://irs.gov/taxstats 上 提供 了 包括 收入 
所 得 税 在 内 的 一 些 统计 数据 。 如 果 做 过 习题 4-13， 你 应 该 已 经 接触 过 
这 些 数据 ， 如 果 没 有 做 过 ， 那 么 请 按 习 题 4-13 的 说 明 从 数据 集中 提取 
收入 的 分 布 信息 。 


请 问 有 多 大 比例 的 人 申报 的 应 纳税 收入 低 于 均值 ? 


请 计算 收入 数据 的 均值 、 中 位 数 、 偏 度 和 皮尔 逊 中 值 偏 度 系 数 。 由 于 
数据 已 经 按 一 定 的 区 间 进 行 了 划分 ， 这 里 的 结果 是 一 些 近似 值 。 

基尼 系数 (Gini coefficient) 是 一 个 衡量 收入 不 平衡 程度 的 指标 。 参 
考 http://wikipedia.org/wiki/Gini _coefficient 的 信息 编写 一 个 名 为 
Gini 的 函数 ， 用 于 计算 收入 分 布 的 基尼 系数 。 


提示 : 可 用 PMEF 计算 相对 平均 差 (relative mean different)， 参 考 
http://en.wikipedia.org/wiki/Mean _difference 。 














可 以 从 这 里 下 载 到 该 问题 的 参考 答案 http://thinkstats.com/gini.py 。 


6.2 随机 变量 


随机 变量 (random variable) 代表 产生 随机 数 的 过 程 。 随 机 变量 一 般 

用 大 写字 母 表示 ， 如 X。 当 你 看 到 一 个 随机 变量 时 ， 可 以 把 它 想 成 从 

某 个 分 布 函 数 抽出 来 的 值 。 

累积 分 布 函 数 (cumulative distribution function) 的 形式 化 定义 为 : 

CDF,CD = P(X < 

到 目前 为 止 ， 我 一 直 在 尽量 避免 使 用 这 类 数学 符号 ， 因 为 这 些 符号 总 

有 点 难以 理解 。 这 个 公式 对 累积 分 布 函 数 进行 了 定义 : 随机 变量 X 的 
累积 分 布 图 数 在 某 个 特定 的 值 x 上 的 国 数值 被 定义 为 随机 变量 X 小 于 

等 于 的 概率 。 


从 计算 机 人 士 的 角度 看 ， 我 们 可 以 将 随机 变量 设想 成 一 个 提供 方法 的 
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对 象 ， 将 该 方法 命名 为 generate， 它 能 利用 随机 过 程 产生 一 些 值 。 
例如 ， 下 面 的 代码 可 以 用 来 表示 随机 变量 的 一 个 类 : 


class RandomVariable (object): 
"Parent class for all random variables."™"" 


一 个 服从 指数 分 布 的 随机 变量 : 


class Exponential (RandomVariable): 
def _init (self, lam): 
self.lam = lam 


def generate (self): 
return random.expovariate (self.1lam) 


init 方法 接受 一 个 参数 4 并 将 其 作为 属性 存储 起 来 ，generate 返回 
了 一 个 服从 参数 为 4 的 指数 分 布 的 随机 数 。 


每 调用 一 次 generate 都 将 得 到 一 个 不 同 的 数值 。 得 到 的 数值 称 为 随 
机 数 (random variate) 。 这 就 是 在 random 模块 中 很 多 国 数 的 名 字 都 
包含 variate 的 原因 。 


如 果 仅 仅 是 为 了 产生 服从 指数 分 布 的 随机 数 ， 或 许 不 用 费心 地 定义 一 
个 新 类 ， 可 能 直接 用 random.expovariate 实现 就 行 了 。 但 是 对 于 其 
他 分 布 ， 用 RandomVariable 对 象 会 是 更 好 的 选择 。 例 如 ， 爱 尔 朋 分 
布 (Erlang distribution) 是 一 个 连续 型 分 布 ， 有 两 个 参数 4 和 上 ( 参 
学 http://wikipedia.org/wiki/Erlang_distribution ) 。 


一 种 产生 服从 爱 尔 朗 分 布 的 随机 数 的 方法 是 ， 将 下 个 服从 参数 为 4 的 
指数 分 布 的 随机 数 进行 求 和 。 这 里 是 它 的 一 个 实现 : 


class Erlang (RandomVariable): 
def _ init (self, lam, k): 
self.lam = lam 
Self.k = k 
self.expo = Exponential (lam) 


def generate (self): 
total, = 0 
for i in range(self.k): 
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total += self.expo.generate() 
returiy total 


init 方法 产生 一 个 给 定 参 数 的 指数 分 布 对 象 ，generate 可 以 调用 
它 。 通 常 ，init 方法 可 以 接受 任意 一 组 参数 ， 而 generate 函数 则 能 
实现 任意 随机 过 程 。 

习题 6-4 


请 编写 一 个 服从 耿 贝 尔 分 布 (Gumbel distribution) 的 随机 变量 的 类 的 定 
义 。( 耿 贝尔 分 布 请 参考 http://wikipedia.org/wiki/Gumbel_distribution。 ) 


6.3 概率 密度 函数 
累积 分 布 国 数 的 导数 称 为 概率 密度 函数 (probability density function ) ， 
简 记 为 PDF。 例如 , 指数 分 布 的 概率 密度 函数 为 : 

PDF., (x) = Ne™” 


expo 




















二 .一 | 1/x—k | 
PDPiom et exp| 一 
pr 


概率 密度 函数 的 值 并 不 是 概率 ， 它 表示 的 是 一 种 概率 密度 (probability 
density ) 。 


物理 学 中 ， 密 度 指 的 是 单位 体积 内 物质 所 拥有 的 质量 ， 质 量 就 等 于 体 
积 乘 以 密度 。 如 果 物 体 的 密度 不 国定 ， 即 不 同 部 位 密度 不 同 ， 那 么 我 
们 可 以 通过 对 密度 函数 进行 积分 得 到 质量 。 

同样 地 ， 概 率 密度 衡量 的 是 x 轴 上 每 个 单位 的 概率 。 为 了 得 到 随机 
变量 落 在 某 个 区 间 的 概率 *”， 我 们 可 以 计算 其 密度 函数 在 这 段 区 间 上 
的 积分 。 假 设 随机 变量 X 的 概率 密度 函数 为 PDFx， 那 么 X 落 在 区 间 
[-0.5, 0.5) 的 概率 为 : 

P(-0.5<X<0.5)= /PDF dx 
































注 2: 我 们 可 以 解释 得 更 具体 一 些 ， 分 布 的 均值 是 质心 ， 方 差 是 转动 惯量 。 
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因为 累积 分 布 函数 是 概率 密度 函数 的 积分 ， 所 以 上 式 也 可 以 写成 : 
P(—0.5<X< 0.5)= CDF(0.5) ~— CDFx(— 0.5) 

对 有 些 分 布 ， 我 们 能 够 得 到 累积 分 布 国 数 的 解析 表达 式 ， 这 时 可 以 采 

用 第 二 种 表达 方式 。 对 于 一 些 无 法 得 到 累积 分 布 函数 解析 表达 式 的 分 

布 ， 可 以 用 数值 积分 的 方法 来 计算 和 在 某 个 区 间 上 的 概率 。 


习题 6-5 
假设 一 个 随机 变量 和 服从 参数 为 4 的 指数 分 布 ， 那 么 和 落 在 区 间 [1， 


20] 的 概率 是 多 少 ? 请 将 结果 表示 成 一 个 关于 4 的 函数 ， 并 保留 推导 
结果 ， 我 们 将 在 8.8 节 用 到 。 


习题 6-6 
从 BRFSS ( 见 4.5 节 ) 的 数据 中 ， 我 们 发 现 人 类 身高 大 致 服从 正 态 分 


布 ， 男 性 身高 的 均值 为 178 cm、 方 差 为 59.4 cm; 女性 身高 的 均值 为 
163 cm、 方 差 为 52.8 cm。 














蓝 人 乐团 要 求 成 员 为 男性 ， 身 高 介 于 178 cm 和 185 cm 之 间 ， 那 么 在 
美国 男性 中 身高 介 于 该 区 间 的 人 有 多 少 ? 


6.4 卷 积 
设 两 个 随机 变量 X 和 了 的 累积 分 布 国 数 分 别 为 CDF, 和 CDF，,， 
Z=X+7， 那 么 Z 服 从 什么 分 布 呢 ? 


一 种 简单 的 估算 Z 的 分 布 的 方法 是 编写 一 个 RandomVariable 对 象 ， 
产生 一 些 X 和 了 Y， 然 后 将 它们 加 起 来 。 下 面 是 这 种 方法 的 代码 实现 .: 
class Sum(RandomVariable): 
def _ init (xX, Y): 
self.X = X 
self.Y = Y 





def generate(): 
return X.generate() + Y.generate() 


我 们 可 以 产生 很 多 Z 的 随机 数 ， 然 后 估计 CDFz。 
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上 述 方法 是 一 个 非常 简单 直观 的 方法 ， 但 不 是 很 有 效 。 为 了 能 天 
CDFz 有 一 个 较 准 确 的 估计 ， 我 们 必须 产生 大 量 的 X 和 了 的 随机 数 。 
而 且 不 管 这 个 精度 被 提高 到 什么 程度 ， 它 总 归 不 是 Z 的 真实 分 布 。 


假设 随机 变量 X 和 了 的 累积 分 布 国 数 CDF; 和 CDF; 有 解析 表达 式 ， 
在 革 些 情况 下 我 们 可 以 通过 数学 推导 得 到 CDF; 的 解析 表达 式 。 


接 下 来 介绍 公式 推导 过 程 。 
1. 从 最 简单 的 情况 出 发 ， 假 设 随机 变量 和 只 能 某 个 值 x， 这 时 CDFz(z) 


旧 
A 


P(Z<z|X=x) = P(Y < zx) 


上 述 等 式 的 左 半 部 分 表示 的 是 “在 给 定 X=x 的 条 件 下 ，X+ 了 小 于 z 
的 概率 " 。 显 然 ， 要 使 X+7 小 于 z， 就 要 求 了 必须 小 于 z-x。 


2. 接 下 来 ， 我们 计算 了 小 于 zx 的 概率 ， 根 据 了 的 累积 分 布 函 数 有 





P(Y Sx)=CDEy(2X) 


3. 上 述 推导 过 程 假设 XX 取 某 个 固定 值 ， 但 实际 上 它 是 一 个 随机 变量 。 
所 以 ,我 们 还 必须 考虑 X 在 其 取 值 范围 内 的 所 有 情况 ， 于 古 : 


P(Z< 了 = 三 PC< z|X=aPDEFooDdx 


被 积 函 数 等 于 “给 定 X=x 的 条 件 下 ， 随 机 变量 Z 小 于 等 于 < 的 概率 乘 
以 Xx 的 概率 ”。 


将 前 面 两 步 的 结果 带 入 公式 ， 有 
P(Z<7) = /CoE(z — PDF (x) dx 
等 式 左边 就 是 CDF; 的 定义 ， 整 理 可 得 : 
CDE:(z) = 由 “CDE,(z — PDF G0) dx 


4. 我 们 可 以 通过 对 CDFz 求 导 得 到 PDFz， 结 果 如 下 : 
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PDE(C) = /© PDE;(z — PDF CO) dx 








如 果 读 者 之 前 学 过 信号 与 系统 等 课程 ， 或 许 对 这 个 积分 公式 不 
会 感到 陌生 。 它 表示 的 是 概率 密度 函数 PDFx 和 PDFy 的 卷 积 
(convolution) 。 卷 积 运算 一 般 用 运算 符 * 表示 。 
PDF> = PDF*PDFx 
综 上 可 知 ， 两 个 随机 变量 的 和 的 分 布 就 等 于 两 个 概率 密度 的 卷 积 。 
参考 http://wiktionary.org/wiki/booyah! 
下 面 我 们 通过 一 个 例子 来 说 明 如 何 计算 。 设 随机 变量 X 和 了 服从 参数 
为 4 的 指数 分 布 ， 则 随机 变量 Z=X+Y 的 概率 密度 为 : 
PDEz(z) = [PDFOPDR(z — dx = f Ae "Ae ™ 
因为 X 和 了 服从 指数 分 布 ， 它 们 取 负 数 的 概率 为 0， 所 以 我 们 可 以 对 
上 述 积分 公式 的 下 限 进 行 调整 : 
PDFz(z) = [hesAe ndr 





哎 


里 可 得 


PR se d= 
0 





这 是 参数 为 和 4 的 爱 尔 朗 分 布 的 概率 密度 函数 ， 这 里 本 2。 所 以 两 
个 有 相同 参数 的 指数 分 布 的 卷 积 是 一 个 爱 尔 朗 分 布 。 爱 尔 朗 分 布 参 考 


http://en.wikipedia.org/wiki/Erlang_distribution.。 
习题 6-7 


假设 随机 变量 和 服从 参数 为 4 的 指数 分 布 ， 了 服从 参数 为 大 和 4 的 爱 
尔 朗 分 布 ，Z=X+7， 那 么 Z 服 从 什么 分 布 呢 ? 


习题 6-8 
假设 我 们 从 一 个 分 布 中 抽取 两 个 样本 X@ 和 X,，Y=max(Xi, X,))， 那 么 了 
服从 什么 分 布 呢 ?请 分 别 用 PDF 和 CDF 的 形式 表示 。 
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随 着 值 数量 的 增多 ， 最 大 值 的 分 布 会 收敛 到 某 个 极 值 的 分 布 ， 参 考 
http://wikipedia.org/wiki/Gumbel_distribution。 


习题 6-9 
假设 我 们 有 随机 变量 和 了 的 Pmf，2Z=X+7， 那 么 就 可 以 通过 枚 举 法 
得 到 Z 所 有 可 能 的 取 值 : 

for x in pmf x.Values (): 


for y in pmf y.Values() : 
z=X+y 


请 编写 一 个 关于 PMF; 和 PMF, 的 函数 ， 用 于 计算 Z 的 PMF。 


请 再 编写 一 个 类 似 的 函数 ， 用 于 计算 max(X,7) 的 PMF。 


6.5 正 态 分 布 的 性 质 

我 们 在 本 书 的 前 面部 分 提 到 了 正 态 分 布 有 具有 非常 好 的 统计 性 质 ， 但 是 
并 未 解释 原因 。 这 里 我 们 给 出 一 个 解释 : 正 态 分 布 对 线性 变换 和 卷 积 
运算 是 封闭 的 〈closed) 。 为 了 说 明 这 些 ， 我 们 引进 几 种 记 法 。 

假设 一 个 随机 变量 和 服从 参数 为 4 和 的 正 态 分 布 ， 我 们 可 以 将 其 简 
记 为 : 





和 ~ No ol) 
这 里 记号 ~ 表示 服从 某 种 分 布 ， 花 体 字 母 N 表示 正 态 分 布 。 


形 如 X' = aX+b 的 表达 式 称 为 随机 变量 和 的 一 个 线性 变换 ， 这 里 4 和 
5b 为 实数 。 当 X' 与 X 属 于 同一 分 布 族 时 ， 我 们 说 该 分 布 族 对 线性 变换 
是 封闭 的 。 正 态 分 布 就 具有 这 种 性 质 。 假 如 X ~ Ny,o)， 那 么 





X' ~ Naut+b, a’o) 





正 态 分 布 对 卷 积 运算 也 是 封闭 的 。 若 Z=XHY， 且 XU co， 
ZW ao， 那么 
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Z ~ (ULxHUp ox toy ) 


我 们 之 前 遇见 的 那些 分 布 都 不 能 满足 这 些 性 质 。 


习题 6-10 
假设 X~Nr, ca， 六 NU oy)，Z=aX+bY， 请 计算 Z 的 分 布 函 数 。 


习题 6-11 
让 我 们 看 一 下 如 果 两 个 连续 型 的 分 布 相 加 ， 结 果 会 是 什么 样 。 首 先 从 
指数 分 布 、 正 态 分 布 、 对 数 正 态 分 布 和 帕 累 托 分 布 中 任意 挑选 两 个 分 
布 ， 并 调整 参数 使 得 这 两 个 分 布 的 均值 和 方差 相近 。 


将 两 个 分 布 产生 的 随机 数 相 加 ， 计 算 基 分布。 请 利用 第 4 章 中 的 方法 
来 测试 这 两 个 分 布 的 和 是 否 可 以 用 一 个 连续 型 的 分 布 来 表示 。 


6.6 中 心 极限 定理 
到 目前 为 止 ， 我 们 已 经 知道 
。 如 果 将 一 些 服从 正 态 分 布 的 数据 加 起 来, 得 到 的 和 也 服从 正 态 分 布 ， 


。 如 果 将 一 些 不 服从 正 态 分 布 的 数据 加 起 来 ， 那 么 得 到 的 结果 一 般 情 
况 下 不 会 服从 前 面 讲 过 的 连续 分 布 。 

理论 上 我 们 已 经 证 明了 : 如 果 将 大 量 服从 某 种 分 布 的 值 加 起 来 ， 所 得 

到 的 和 会 收敛 到 正 态 分 布 。 


假设 随机 变量 X 的 均值 和 标准 差 为 和 co， 那么 n 个 随机 变量 X 的 和 
渐进 地 服从 Nnn, no”)。 





上 述 理 论 称 为 中 心 极 限定 理 (Central Limit Theorem) ， 它 是 统计 分 析 
中 非常 重要 的 工具 。 但 是 这 个 定理 的 成 立 要 求 满足 一 些 条 件 。 


。 用 于 求 和 的 数据 必须 满足 独立 性 。 
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。 数据 必须 服从 同一 个 分 布 (这 个 要 求 可 以 被 适当 地 放松 )。 


。 产生 这 些 数据 分 布 的 均值 和 方差 必须 是 有 限 的 〈 所 以 帕 累 托 分 布 就 
不 能 满足 这 个 条 件 了 )。 


。 收 系 的 速度 取决 于 原来 分 布 的 偏 度 。 如 果 数 据 服从 指数 分 布 ， 那 么 
这 些 数据 的 和 将 会 很 快 收 化 ;但 如 果 数 据 服从 对 数 正 态 分布 ， 那 么 
收敛 速度 就 没 那 么 快 了 。 


中 心 极限 定理 部 分 解释 了 为 什么 正 态 分 布 在 自然 界 中 广泛 存在 。 绝 大 
多 数 动物 (或 者 其 他 生命 形式 ) 的 特征 ， 如 体重 ， 都 会 受到 大 量 遗 传 
和 环境 因素 的 影响 ， 而 且 这 些 影响 是 具有 可 加 性 的 。 我 们 观测 到 的 这 
些 特征 是 大 量 微 效 因素 的 加 和 ， 所 以 它们 都 近似 地 服从 正 态 分 布 。 





习题 6-12 
假设 x,， …, x 是 服从 同一 分 布 的 独立 数据 ， 且 均值 4 和 方差 o 都 是 有 
限 的 ， 那 么 样本 均值 服从 什么 分 布 呢 ? 

z= 


样本 均值 的 方差 会 随 着 的 增 大 发 生 什 么 样 的 变化 ?提示 : 可 以 回想 
一 下 6.5 节 的 开头 。 


习题 6-13 
从 指数 分 布 、 对 数 正 态 分 布 、 帕 累 托 分 布 中 选择 一 个 分 布 国 数 ， 然 后 
产生 一 组 随机 数 〈 个 数 为 2、4 或 8 等 )， 计 算 它 们 和 的 分 布 。 画 出 分 
布 图 看 看 是 否 接近 正 态 分 布 ? 当 随 机 序列 的 长 度 多 长 时 会 收敛 到 正 态 
分 布 ? 





习题 6-14 
如 果 我 们 不 计算 它们 的 总 和 ， 而 是 改 成 计算 它们 的 乘积 ， 那 么 随 着 项 
数 增多 ， 结 果 会 怎么 样 ? 提示 : 看 看 乘积 对 数 的 分 布 。 
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6.7 分 布 函 数 之 间 的 关系 框架 

到 现在 为 止 ， 我 们 已 经 了 解 了 概率 质量 国 数 (PMF)、 累 积分 布 函 数 
(CDF) 和 概率 密度 函数 (PDF) 等 概念 。 我 们 回顾 一 下 之 前 的 这 些 内 
容 ， 图 6-1 列 出 了 这 些 国 数 之 间 的 关系 。 








图 6-1: 分 布 函数 之 间 的 关系 框架 


我 们 从 概率 质量 函数 出 发 ， 它 表示 的 是 离散 随机 变量 在 各 特定 取 值 上 
的 概率 。 按 随机 变量 取 值 的 大 小 将 其 概率 值 进行 累加 ， 就 可 以 得 到 此 
训 分 布 国 数 。 本 来 为 了 命名 的 连贯 性 ， 我 们 应 该 将 这 里 的 累积 分 布 图 
数 称 为 累积 质量 函数 ， 但 到 目前 为 止 ， 还 没有 人 用 过 这 个 词 。 

我 们 也 可 以 从 累积 分 布 函数 出 发 ， 通 过 差分 运算 得 到 概率 质量 函数 。 

同样 地 ， 概 率 密度 函数 是 连续 型 累积 分 布 函 数 的 微分 ， 反 过 来 说 ， 累 
积分 布尔 数 是 概率 密度 函数 的 积分 。 这 里 要 注意 的 是 ， 概 率 密度 函数 
表示 的 是 一 个 值 对 应 的 概率 密度 而 非 概率 ， 如 果 要 计算 概率 ， 我 们 必 
须 对 概率 密度 进行 积分 。 

我 们 可 以 运用 多 种 方式 将 一 个 离散 型 的 分 布 变 成 连续 型 的 分 布 。 例 
如 ， 可 以 认为 这 些 离散 的 数据 来 自 一 个 连续 型 的 分 布 ( 比 如 指数 分 布 
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或 者 正 态 分 布 )， 然 后 利用 这 些 数 据 估 计 分 布 的 参数 。 这 些 内 容 我 们 
将 在 第 8 章 进行 更 深入 地 探讨 。 


假如 我 们 将 概率 密度 函数 按 一 定 的 区 间 进 行 分 段 ， 然 后 在 每 一 段 分 别 
进行 积分 ， 这 样 就 将 一 个 连续 型 的 分 布 离散 化 了 ， 得 到 了 一 个 近似 概 
率 密度 函数 的 概率 质量 函数 。 在 第 8 章 ， 我 们 将 利用 这 个 方法 来 做 贝 
叶 斯 估计 。 








习题 6-15 
请 编写 一 个 名 为 MakePmfFromcdf 的 函数 ， 用 来 将 分 布 的 CDF 转换 
成 对 应 的 PMF。 


访问 http://thinkstats.com/Pmf.py 查看 本 练习 的 答案 。 


6.8 术语 表 


。 中 心 极限 定理 (Central Limit Theorem) 
早期 的 统计 学 家 弗朗西斯 - 高 尔 顿 酷 士 认为 中 心 极限 定理 是 “The 


supreme law of Unreason” 。 





。 卷 积 (convolution) 


种 运算 ， 用 于 计算 两 个 随机 变量 的 和 的 分 布 。 





。 虚幻 的 优越 性 (illusory superiority ) 
心理 学 概念 ， 是 指 人 们 普遍 存在 的 将 自己 高 估 的 一 种 心理 。 








。 概率 密度 函数 (probability density function ) 
连续 型 累积 分 布 函 数 的 导数 。 

。 随机 变量 (random variable) 
一 个 能 代表 一 种 随机 过 程 的 客体 。 

。 随机 数 (random variate ) 
随机 变量 的 实现 。 
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鲁 棒 性 (robust) 
如 果 一 个 统计 量 不 容易 受到 异常 值 的 影响 ， 我 们 说 它 是 鲁 棒 的 。 


偏 度 (skewness) 
分 布 国 数 的 一 种 特征 ， 它 度量 的 是 分 布 国 数 的 不 对 称 程度 。 
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假设 检验 





从 NSFG (美国 全 国家 庭 成 长 调查 ) 提供 的 数据 中 ， 我 们 可 以 发 现 
一 些 很 明显 的 现象 ， 例 如 第 一 胎 婴 儿 与 非 第 一 胎 婴 儿 相 比 有 很 多 不 
同 的 地 方 。 到 目前 为 止 ， 我 们 仅 从 数值 大 小 的 角度 比较 了 这 些 效应 
(effect) 。 接 下 来 我 们 将 对 这 些 效应 进行 统计 检验 。 


最 基本 的 问题 是 这 些 效 应 是 真实 存在 的 还 是 随机 引起 的 。 例 如 ， 我 们 
发 现 孕 妇 第 一 胎 的 怀孕 周期 和 非 第 一 ” 胎 的 不 同 ， 那 么 这 个 差异 是 确 
实 存在 的 还 是 偶然 引起 的 呢 ? 


我 们 难以 直接 回答 上 述 问 题 ， 但 可 以 将 甚 拆 成 两 部 分 : 首先 检验 这 个 效 
应 是 否 具 有 显著 性 ， 然 后 通过 解释 统计 检验 的 结果 来 回答 上 述 问题 。 


在 统计 学 上 上， 显著 性 (significant) 有 专门 定义 ， 与 通常 语义 下 的 用 法 
不 同 。 如 本 书 前 面 提 到 的 ， 我 们 说 一 个 效应 在 统计 学 上 具有 显著 性 ， 
是 指 这 种 情况 在 一 次 试验 中 不 大 可 能 (unlikely) 发 生 。 


为 了 让 上 述 表述 更 加 精确 ， 我 们 必须 回答 如 下 三 个 问题 。 
1. 什么 是 “偶然 ”? 


2. 什么 是 “不 大 可 能 发 生 ”? 
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3. 什么 是 “效应 ”? 


这 三 个 问题 要 比 看 起 来 难 很 多 , 但 是 人 们 已 经 发 展 出 了 一 套 方法 来 进 
行 统计 显著 性 检验 。 


原 假 设 (null hypothesis ) 
基于 一 种 假设 的 系统 模型 ， 在 这 种 假设 下 我 们 认为 观测 到 的 效应 是 
由 偶然 因素 造成 的 。 


。 p 值 (p-value) 
在 原 假设 下 ， 出 现 直观 效应 的 概率 。 





。 解释 (Interpretation ) 
基于 p 值 的 大 小 ， 推 新 观测 到 的 效应 是 否 具 有 统计 显著 性 。 


上 述 过 程 称 为 假设 检验 (hypothesis testing)。 这 里 潜在 的 逻辑 类 似 于 
数学 上 的 反 证 法 : 为 了 证 明 数 学 命题 A 是 正确 的 ， 我 们 先 假设 A 是 错 
误 的 ， 如 果 基 于 这 个 假设 得 出 了 了 矛盾 的 结果 ， 那 么 我 们 就 证 明了 A 是 
正确 的 。 


同样 地 ， 为 了 检验 某 个 直观 效应 是 否 真实 存在 ， 我 们 首先 假设 这 个 效 
应 不 是 真实 存在 的 ， 即 偶然 造成 的 〈 原 假设 )。 然 后 基于 这 个 原 假 设 
计算 出 发 生 这 种 效应 的 概率 (p 值 )。 如 果 p 值 非常 小 ， 我 们 就 可 以 认 
为 原 假设 不 大 可 能 是 真 的 。 


7.1 均值 差异 的 检验 


统计 检验 中 最 简单 的 一 种 检验 是 比较 两 组 数据 的 均值 是 否 存在 差异 。 
在 NSFG 数据 中 ， 我 们 发 现 第 一 胎 婴 儿 怀 孕 周期 的 均值 略 长 于 非 第 一 
胎 婴 儿 怀 孕 周 期 的 均值 ， 同 时 第 一 胎 婴 儿 出 生体 重 的 均值 略 轻 于 非 第 

一 胎 婴 儿 出 生体 重 的 均值 。 接 下 来 我 们 将 检验 这 些 差 异 是 否 具 有 统计 
显著 性 。 


在 上 述 两 个 例子 中 ， 原 假设 是 两 个 分 组 的 分 布 相同 ， 出 现 上 述 差 异 是 
随机 因素 引起 的 。 
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为 了 计算 p 值 ， 我 们 把 所 有 娶 儿 (包括 第 一 胎 和 非 第 一 胎 ) 的 数据 混 
在 一 起 。 然 后 重新 随机 分 成 两 组 : 第 一 组 的 样本 个 数 等 于 第 一 胎 婴 儿 
的 样本 数 ， 第 二 组 的 样本 个 数 等 于 非 第 一 胎 婴 儿 的 样本 数 。 每 次 分 完 
组 后 ， 计 算 两 个 分 组 的 均值 的 差 。 这 个 差 值 相当 于 在 原 假设 (两 个 分 
组 没有 差异 ) 下 观测 到 的 差 值 。 


如 果 我 们 产生 足够 数量 的 这 种 分 组 样本 ， 可 以 统计 有 多 少 个 差 值 (由 
于 随机 因素 引起 的 ) 大 于 等 于 实际 上 我 们 观测 到 的 差 值 ， 这 个 比例 就 
是 p 值 。 





就 怀孕 周期 而 言 ， 我 们 观察 了 n=4413 个 第 一 胎 婴 儿 ，m=4735 个 非 第 
一 胎 婴 儿 。 两 组 样本 均值 的 差 值 为 5=0.078 周 。 为 了 计算 这 个 效应 的 
p 值 ， 将 两 个 分 组 的 数据 合 在 一 起 ， 然 后 随机 将 这 些 数据 分 成 两 组 ， 
一 组 的 样本 数 为 n， 另 一 组 为 mm， 再 计算 这 两 个 分 组 的 均值 的 差 。 


这 是 重 抽 样 (resampling) 的 一 个 例子 ， 因 为 我 们 是 从 一 个 分 布 的 样 
本 数据 里 面 重新 随机 地 抽取 样本 。 我 们 随机 产生 了 1000 次 这 样 的 过 
程 ， 这些 差 值 的 分 布 如 图 7-1 所 示 。 
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图 7-1: 重 抽样 数据 均值 差异 的 CDF 
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从 图 中 我 们 发 现 差 值 的 平均 值 很 靠近 0， 这 跟 我 们 的 原 假 设 是 一 致 的 。 
图 中 的 两 条 竖 线 表示 两 个 阅 值 (cutoff) ， 这 里 选择 了 x=-6 和 x=6。 

在 这 1000 个 差 值 里 面 ， 我 们 发 现 有 166 个 值 的 绝对 值 大 于 等 于 5， 所 
以 这 里 的 p 值 约 为 0.166。 换 名 话说 ， 在 两 个 分 组 的 怀孕 周期 没有 差 
别 的 原 假设 下 ， 出 现 这 种 效应 的 概率 大 约 为 17% 。 

这 样 的 效应 在 一 次 试验 中 是 不 大 可 能 出 现 的 ， 但 是 这 个 概率 是 否 足够 
小 呢 ? 我 们 将 在 下 一 节 讨 论 这 个 问题 。 














习题 7-1 
在 NSFG 的 数据 集中 ， 第 一 胎 婴 儿 的 平均 体重 与 非 第 一 胎 婴 儿 的 平均 
体重 的 差异 为 2.0 嚼 司 。 请 计算 这 个 差异 的 p 值 。 


提示 : 这 里 的 重 抽样 应 该 用 的 是 有 放 回 抽样 。 因 此 应 该 使 用 *andonm. 
choice， 而 不 是 random.sample (参见 3.8 市 )。 





你 可 以 借鉴 本 节 中 我 用 来 生成 结果 的 代码 ， 下 载 代码 请 访问 http:// 
thinkstats.com/hypothesis.py。 


7.2 阅 值 的 选择 
在 假设 检验 中 ， 我 们 必须 注意 两 种 类 型 的 错误 。 


。 I 类 错误 (type I error)， 也 称 假 阳性 (false positive) ， 指 的 是 我 们 
接受 了 一 个 本 质 为 假 的 假设 。 也 就 是 说 ， 我 们 认为 某 个 效应 具有 统 
计 显 著 性 ， 但 实际 上 该 效应 却 是 由 偶然 因素 产生 的 。 


。 I 类 错误 (type II error) ， 也 称 假 阴 性 (false negative) ， 指 的 是 我 
们 推翻 了 一 个 本 质 为 真 的 假设 。 也 就 是 说 我 们 将 某 个 效应 归结 为 随 
机 产生 的 ， 但 实际 上 真实 存在 。 


假设 检验 中 最 常用 的 方法 是 为 p 值 选择 一 个 国 值 ' a, 一旦 p 值 小 于 这 





注 1: 又 称 为 显著 性 准则 (significance criterion ) 。 
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个 国 值 ， 我 们 就 推翻 原 假 设 。 通 常情 况 下 我 们 选择 5% 为 闵 值 。 在 这 
个 标准 下 ， 第 一 胎 和 非 第 一 胎 婴 儿 怀 孚 周期 的 差异 就 不 具备 统计 显著 
性 了 ， 但 是 在 出 生体 重 上 的 差异 就 具有 显著 性 。 


对 于 这 类 假设 检验 ， 我 们 可 以 得 到 出 现 假 阳 性 的 精确 概率 ， 这 个 概率 
就 是 a 值 。 


我 们 解释 一 下 原因 ， 首 先 回 顾 假 阳 性 和 op 值 的 定义 : 假 阳性 是 指 接受 
了 一 个 不 成 立 的 假设 ，p 值 是 指 假设 不 成 立时 出 现 测 量 效 应 的 概率 。 


两 者 结合 起 来 ， 我 们 的 问题 是 : 如 果 选 择 a 为 显著 性 国 值 ， 当 假设 不 
成 立时 ， 出 现 该 测量 效应 的 概率 会 是 多 少 呢 ? 答案 就 是 a。 


我 们 可 以 通过 降低 阔 值 来 控制 假 阳 性 。 例 如 如 果 我 们 设置 冰 值 为 1%， 
那么 出 现 假 阳性 的 概率 就 等 于 1%。 


但 是 降低 假 阳性 也 是 有 代价 的 。 国 值 的 降低 会 导致 判断 效应 确实 存在 
的 标准 提高 ， 这 样 推翻 有 效 假设 的 可 能 性 就 变 大 ， 即 我 们 更 有 可 能 抠 
受 原 假设 。 

一 般 说 来 , 工 类 错误 和 开 类 错误 之 间 存 在 一 种 权衡 ， 同 时 降低 这 两 
种 错误 的 唯一 方法 是 增加 样本 数量 〈 或 者 ， 在 某 些 情况 下 降低 测量 
误差 ) 。 





习题 7-2 
为 了 研究 样本 数量 对 p 值 的 影响 ， 请 读者 试 着 去 掉 一 半 NSFG 的 数 
据 ， 再 计算 一 下 p 值 ， 并 比较 结果 。 如 果 去 掉 3/4 的 数据 呢 ? 提示 : 
使 用 radom. sample。 

最 少 需 要 多 少 样本 量 才能 保证 差异 有 5% 的 显著 性 ?如 果 要 求 有 1% 
的 显著 性 ， 又 需要 多 少 样本 ? 

读者 可 以 从 http://thinkstats.com/hypothesis.py 下 载 到 本 节 所 用 到 的 
代码 。 
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7.3 效应 的 定义 

当 人 们 看 到 不 寻常 的 事情 发 生 时 通常 会 感到 稀奇 ， 并 问 :“ 出 现 这 种 
情况 的 可 能 性 有 多 大 呢 ? ”这 是 因为 人 们 在 直觉 上 认为 不 大 可 能 发 生 
的 事情 会 很 少 发 生 。 但 这 种 直觉 并 不 总 是 能 经 得 住 推 项 。 


例如 ， 假 设 我 抛 10 次 硬币 ， 每 抛 一 次 我 都 将 结果 记录 下 来 ,用 理 表 
示 正 面 朝 上 ， 用 了 表示 反面 朝 上 。 如 果 得 到 的 结果 是 THHTHTTTHH ,， 
或 许 大 家 不 会 觉得 惊讶 。 但 是 如 果 结 果 是 HHHHHHHHHH， 人 们 可 能 
会 问 :“ 这 种 可 能 性 有 多 大 呢 ? ” 


在 这 个 例子 中 ， 两 个 结果 序列 相同 的 概率 为 11024。 同 样 地 ， 任 意 两 
个 结果 序列 相同 的 概率 也 是 111024。 所 以 当 我 们 问 “ 出 现 这 种 情况 的 
可 能 性 有 多 大 ”的 时 候 ， 必 须 明 确 “ 这 种 情况 ”具体 是 什么 。 


在 NSFG 数据 中 ， 我 们 将 效应 定义 为 “两 个 分 组 的 均值 差 (不 分 正 
负 ) 大 于 等 于 6”。 给 定 这 个 定义 之 后 ， 我 们 只 关注 这 个 差 值 绝 对 值 的 
大 小 ， 而 不 再 关注 它 是 正 数 还 是 负数 。 


上 述 类 型 的 检验 称 为 双边 检验 (two-side test) ， 我 们 考虑 了 图 7-1 中 
分 布 的 两 边 的 情况 ( 正 的 和 负 的 )。 在 这 里 ， 双 边 检 验 的 假设 是 两 个 
分 布 的 平均 值 有 显著 差别 ， 而 不 关注 相对 大 小 。 


与 双边 检验 对 应 的 是 单 边 检验 (one-side test)。 单 边 检 验 关注 的 是 第 
一 胎 婴 儿 数 据 的 均值 是 否 显 著 高 于 非 第 一 胎 婴 儿 数 据 的 均值 。 因 为 单 
边 检 验 的 假设 更 具有 特异 性 ， 所 以 单 边 检验 的 p 值 会 比较 低 ， 在 这 里 
大 约 是 双边 检验 p 值 的 一 半 。 


7.4 解释 统计 检验 结果 


本 章 开 头 ， 我 们 提 到 了 一 个 问题 : 如 何 确定 观测 到 的 表 观 效应 是 否 真 
实 存在 ? 我 们 是 这 样 来 处 理 的 。 首 先 ， 定 义 原 假设 〈 效 应 不 存在 ) 为 
可; 然后 定义 Pp 值 为 P(EIHo)， 这 里 的 EE 表示 的 是 与 表 观 效应 相符 以 
及 比 表 观 效应 更 显著 的 效应 。 最 后 我 们 可 以 计算 得 到 p 值 ， 并 将 其 与 
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国 值 a 作 比较 。 

这 些 步骤 非常 重要 ， 但 是 并 没有 回答 我 们 原来 的 问题 ， 即 这 个 效应 是 
否 真实 存在 。 所 以 我 们 应 该 对 假设 检验 的 结果 进行 解释 。 一 般 说 来 有 
如 下 的 几 种 解释 。 


古典 解释 

在 古典 的 假设 检验 中 ， 如 果 p 值 小 于 国 值 x， 那 么 我 们 可 以 说 效应 
在 统计 学 上 是 显著 的 ， 但 是 不 能 得 到 效应 真实 存在 的 结论 。 这 种 解 
释 很 谨慎 ， 避 免 提 到 结论 ， 但 无 法 让 人 满意 。 


实际 解释 
在 实际 应 用 中 ， 人 们 并 没有 像 上 述 那 样 正式 地 处 理 假设 检验 。 在 绝 
大 多 数 科 学 杂志 中 ， 研 究 者 毫 无 市 制 地 报道 p 值 ， 读 者 也 将 它们 作 
为 表 观 效应 真实 存在 的 证 据 。p 值 越 低 ， 就 越 能 使 他 们 相信 结论 的 
正确 性 。 


贝 叶 斯 统计 解释 
实际 上 我 们 想 知道 的 是 P(E)， 这 里 研 是 与 Ho 相对 的 假设 ， 即 
效应 是 真实 存在 的 。 由 贝 叶 斯 定理 可 得 
P(E|H)P(H) 
P(E 





P(Hi|B) = 


这 里 P(H) 是 在 我 们 观测 到 这 个 效应 之 前 的 先 验 概率 。P(E| 厅 ) 是 
在 到 成立 的 条 件 下 观测 到 效应 E 的 概率 。P(E) 是 在 任意 情况 下 观 
测 到 效应 五 的 概率 。 效 应 要 么 存在 ， 要 么 不 存在 ， 所 以 这 里 P(E) 
可 以 表示 为 


P(E) = P(EIH)P(H) + P(EIHOP(H) 





例如 ， 我们 要 计算 NSFG 数据 中 怀孕 周期 的 P(E)。 已 经 知道 
P(E|H,)=0.166， 所 以 接 下 来 要 做 的 就 是 计算 P(E|H)， 并 为 本 选择 一 
个 先 验 概率 。 


为 了 计算 P(E|IH4)， 我 们 假设 效应 是 真实 存在 的 ， 且 两 个 分 组 均值 的 
差 (等 于 0.078) 反映 的 是 真实 的 效应 。( 这 样 的 处 理 实际 上 并 不 严 
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谨 ， 下 一 市 会 解释 如 何 解 决 这 个 问题 。) 


在 两 个 分 组 中 单独 地 抽取 样品 ， 构 建 每 个 分 组 的 分 布 。 重 复 1000 次 
这 样 的 试验 ， 我 们 得 到 P(E| 本 ) 的 估计 为 0.494。 假 设 PC 的 先 验 概 
率 为 0.5， 得 到 到 的 后 验 概率 为 0.748。 


因此 ， 车 P(H) 的 先 验 概率 为 50%， 用 观测 到 的 证 据 更 新 之 后 得 到 的 
后 验 概率 接近 75%。 后 验 概率 高 于 先 验 概 率 ， 这 个 结果 是 有 意义 的 ， 
因为 这 表明 了 观测 到 的 数据 在 一 定 程 度 上 支持 了 琴 。 不 过 这 个 结果 看 
起 来 多 少 有 点 使 人 惊讶 ， 先 验 概率 和 后 验 概 率 会 差别 这 么 大 ， 而 且 还 
是 在 两 个 分 组 均值 差异 并 不 具备 统计 显著 性 的 情况 下 。 


实际 上 ， 这 一 节 中 所 用 的 方法 并 不 严谨 ， 上 述 方法 倾向 于 夸大 了 观测 
到 的 差异 的 影响 。 下 一 节 我 们 修正 这 一 倾向 。 














习题 7-3 
在 NSFG 的 数据 中 ， 第 一 胎 婴 儿 体重 的 分 布 与 非 第 一 胎 婴 儿 体重 的 分 
布 不 同 的 后 验 概率 是 多 少 ? 


读者 可 以 从 http://thinkstats.com/hypothesis.py 下 载 本 节 用 到 的 代码 。 


7.5 交 又 验证 


在 前 一 个 例子 中 ， 我 们 使 用 数据 集 来 构建 有 也， 然后 再 用 同一 个 数据 集 
进行 检验 。 这 并 不 是 一 个 好 方法 ， 很 容易 产生 错误 结果 。 


这 里 会 出 现 的 问题 是 : 即使 原 假 设 是 真 的 ， 也 可 能 因为 随机 抽样 的 缘 
故而 导致 两 个 分 组 的 均值 有 差别 (6) 。 如 果 直 接 用 这 个 差别 计算 及 ， 
然后 再 用 同样 的 数据 来 计算 PCH4|E)， 那 么 即使 及 为 假 ， 也 会 得 到 一 
个 很 高 的 PCB|B)。 





可 以 用 交叉 验证 〈cross-validation) 的 方法 来 解决 这 个 问题 : 用 一 批 
数据 来 计算 65， 然后 再 用 另 一 批 数 据 来 计算 P(H|E)。 第 一 批 数据 称 为 
训练 集 (training set) ， 第 二 批 数 据 称 为 测试 集 ( testing set) 。 
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在 像 NSFG 这 类 包含 不 同 周期 不 同人 群 的 研究 中 ， 可 以 利用 一 个 周期 
的 数据 做 训练 集 ， 然 后 用 另 一 个 周期 的 数据 做 测试 集 。 或 者 也 可 以 随 
机 地 将 数据 分 成 两 部 分 ， 一 部 分 是 训练 集 ， 另 一 部 分 是 测试 集 。 


我 们 按 第 二 种 方法 将 第 6 周期 收集 到 的 数据 随机 地 分 成 两 部 分 。 重 复 
数 次 之 后 ， 得 到 的 P(H4|E) 的 平均 值 是 0.621。 跟 预期 一 致 ， 观 测 到 的 
差异 对 检验 的 影响 变 小 了 。 一 方面 是 因为 我 们 所 用 的 样本 量变 小 了 ， 
另 一 方面 则 是 训练 集 和 测试 集 已 经 不 是 同一 批 数据 了 。 


7.6 报道 贝 叶 斯 概率 的 结果 


在 上 一 市 中 ， 我 们 选择 0.5 作为 P(BA) 的 先 验 概率 。 对 于 一 组 假设 ， 
假如 我 们 认为 它们 的 可 能 性 都 是 一 样 的 ， 即 没有 哪个 假设 比 其 他 假设 
更 可 能 是 真 的 ， 那 么 通常 我 们 会 指定 同一 个 先 验 概率 。 


贝 叶 斯 概率 依赖 于 先 验 概 率 的 指定 ， 而 人 们 在 这 个 问题 上 往往 很 难 达 
成 一 致 ， 一 些 人 因此 对 贝 叶 斯 概率 持 反 对 态度 。 对 那些 坚持 认为 科学 
结果 应 是 具有 客观 性 和 普遍 性 的 人 来 说 ， 贝 叶 斯 概率 的 这 种 性 质 是 他 
们 无 法 接受 的 。 


针对 反对 观点 ， 下 面 是 一 种 解释 : 在 实际 应 用 中 ， 强 有 力 的 证 据 会 降 
低 先 验 概 率 的 影响 ， 所 以 即使 人 们 初始 指定 的 概率 不 同 ， 最 终 的 后 验 
概率 会 倾向 于 收敛 。 


另 一 种 报道 贝 叶 斯 概率 的 方法 是 只 报道 似 然 比 〈likelyhood ratio ) 
P(EIH4)/P(E|H。,)， 而 不 再 关注 后 验 概率 。 这 样 ， 人 们 就 可 以 依据 自己 
的 观点 来 设置 先 验 概 率 和 计算 后 验 概 率 。 似 然 比 有 时 也 称 为 贝 叶 斯 因 
子 (Bayes factor， 参 考 http://wikipedia.org/wiki/Bayes_factor ) 。 




















习题 7-4 
假设 到 的 先 验 概 率 为 0.3， 之 后 我 们 观测 到 了 新 的 证 据 E， 并 知道 
此 时 似 然 比 P(EIH4)/P(E|H0) 为 3， 那 么 这 种 情况 下 Hi 的 后 验 概率 是 
多 少 ? 
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习题 7-5 
下 面 的 例子 来 自 MacKay 的 Information Theory, Inference, and Learning 
Algorithms: 


有 两 个 人 在 犯罪 现场 留 下 了 血样 。 奥 利 弗 是 其 中 的 一 个 嫌疑 
犯 ， 他 的 血型 为 0 型 。 犯 罪 现场 的 两 份 血 液 组 织 分 别 是 DO 型 
和 AB 型 ， 前 者 在 当地 人 群 中 有 广泛 分 布 ，60% 的 人 是 这 种 血 
型 ， 后 者 只 有 1%。 那 么 这 些 证 据 ( 即 贸 在 犯罪 现场 的 血样 ) 
是 否 会 增加 我 们 对 奥利弗 是 嫌疑 犯 的 怀疑 ? 


提示 : 计算 证 据 的 似 然 比 ， 如 果 大 于 1 就 说 明证 据 支 持 对 奥利弗 的 怀 
疑 。 读 者 可 从 MacKay 一 书 的 第 55 页 找到 问题 的 答案 和 解释 。 


7.7 卡 方 检验 


7.2 节 中 我 们 得 出 了 以 下 结论 : 第 一 胎 婴 儿 的 平均 怀孕 周期 与 非 第 一 
胎 婴 儿 的 平均 怀孕 周期 的 差别 不 具备 统计 显著 性 。 但 在 2.10 市 我 们 计 
算 相 对 风险 时 ， 发 现 第 一 胎 婴 儿 倾 向 于 更 早 或 者 更 晚 出 生 ， 而 较 少 准 
时 出 生 。 


综 上 ， 或 许 这 两 个 分 布 有 相同 的 均值 ， 但 却 有 不 同 的 方差 。 我 们 本 来 

应 该 检验 方差 的 差异 是 否 上 共有 显著 性 ， 但 方差 相对 均值 而 言 鲁 棒 性 较 

差 ， 针 对 方差 的 统计 检验 通常 表现 较 差 。 

这 里 我 们 采取 的 方法 是 直接 检验 这 种 趋势 是 否 具 有 统计 学 意义 上 的 差 

别 ， 即 第 一 胎 婴 儿 倾 向 于 更 早 或 者 更 晚 出 生 而 较 少 准时 出 生 ， 这 种 差 

异 具 有 统计 学 意义 。 

我 们 分 五 步 来 完成 这 个 检验 。 

1. 按 2.10 节 中 的 标准 把 数据 按 怀孕 周期 分 成 三 个 分 组 (提前 出 生 、 准 
时 出 生 和 延 后 出 生 )。 因 为 我 们 有 两 组 数据 ， 所 以 总 共有 6 个 单元 
格 (cell) 。 
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MD 


. 计算 每 个 单元 格 期 望 出 现 的 数字 。 在 原 假设 下 两 个 分 组 是 相同 的 ， 
所 以 我 们 将 两 组 数据 混在 一 起 ， 来 估计 P( 提 前 出 生 )、P( 准 时 出 
生 ) 和 P( 延 后 出 生 )。 
我 们 有 n=4413 个 第 一 胎 婴 儿 的 数据 ， 在 原 假设 下 ， 我 们 期 望 会 有 
nP( 提前 出 生 ) 个 婴儿 提前 出 生 ，zP( 准 时 出 生 ) 个 婴儿 准时 出 生 ， 
等 等 。 同 样 地 ， 对 m=4735 个 非 第 一 胎 婴 儿 样 本 ， 我 们 可 以 计算 出 
每 个 单元 格 的 期 望 数值 。 


. 对 每 个 单元 格 ， 计 算 观 测 到 的 数值 (0;) 与 期 望 数值 (E;) 的 离 差 ， 
即 OE,。 


[Se] 


小 
Gy 


. 计算 某 种 形式 的 离 差 和 ， 将 这 个 量 称 为 检验 的 统计 量 。 通 常 我们 会 选 
择 卡 方 统计 量 : 


a O — EF)’ 
x -Fe 


un 


. 利用 蒙特 卡 罗 模 拟 来 计算 p 值 ， 这 个 p 值 表示 的 是 在 原 假设 下 出 现 
比 观测 值 ( 即 我 们 在 第 4 步 中 计算 得 到 的 统计 量 的 值 ) 更 高 的 卡 方 
统计 量 的 概率 。 


当 检 验 中 用 到 的 统计 量 是 卡 方 统计 量 时 ， 我 们 称 该 统计 检验 为 卡 方 检 
验 (chi-square test) 。 卡 方 统计 量 服从 卡 方 分 布 ， 据 此 我 们 可 直接 计 
算出 统计 检验 的 p 值 。 


在 NSFG 的 数据 中 ， 我 们 计算 得 到 X=91.64, p 值 小 于 0.0001。 这 样 我 们 
可 以 认为 该 结果 具有 统计 显著 性 。 需 要 注意 到 的 一 点 是 : 我 们 仍然 在 用 
同一 批 数据 进行 检验 ， 最 好 能 在 另 一 批 数 据 上 验证 一 下 我 们 的 结果 。 


读者 可 以 从 http://thinkstats.com/chi.py 下 载 到 本 节 所 用 的 代码 。 


习题 7-6 
假设 你 是 一 家 赌场 的 老板 ， 你 怀疑 有 个 赌 客 对 般 子 做 了 手脚 。 你 已 经 
将 赌 客 抓 了 起 来 并 且 没 收 了 他 的 般 子 。 现 在 你 必须 证 明 他 的 骨 子 是 有 
问题 的 。 
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你 气 了 60 次 鹏 子 ， 记 录 结 采 如 下 所 示 : 





点 数 1 2 3 4 5 6 








频数 8 9 19 6 8 10 








用 上 述 结果 计算 的 卡 方 统计 量 等 于 多 少 ? 在 骨 子 没有 问题 的 情况 下 ， 
卡 方 统 计量 比 这 个 值 更 大 的 可 能 性 是 多 少 ? 


7.8 高 效 再 抽样 

如 果 读 者 之 前 学 习 过 概率 统计 的 知识 ， 在 看 到 图 7-1 时 或 许 会 觉得 有 
点 儿 不 届 一 顾 ， 因 为 我 们 花费 了 大 量 计 算 机 资源 去 模拟 一 些 本 可 以 用 
很 简单 的 理论 分 析 就 能 得 到 的 结果 。 


很 显然 ， 本 书 并 没有 把 重心 放 在 数学 分 析 上 面 。 我 们 更 愿意 通过 计算 
机 用 一 些 貌 似 “ 轧 春 ” 的 方法 来 讲述 本 书 的 内 容 ， 这 样 可 能 更 容易 让 
初学 者 明白 这 里 的 意义 ， 也 更 容易 让 他 们 上 手 。 所 以 只 要 我 们 的 模拟 
不 需要 耗费 很 长 时 间 ， 这 种 方式 没有 什么 不 受 。 


但 有 时 候 ， 只 需 进 行 一 些 简单 的 分 析 就 可 以 节省 大 量 的 计算 ， 图 7-1 
就 是 这 样 的 一 个 例子 。 

我 们 之 前 是 将 两 个 分 组 的 怀孕 周期 混在 一 起 ， 然 后 再 按 原来 每 组 的 个 
数 重新 随机 将 数据 分 成 两 组 ， 之 后 计算 两 个 分 组 均值 的 差异 。 重 复 这 
样 的 过 程 ， 用 这 些 数据 构建 分 布 。 

这 里 ， 我 们 可 以 通过 分 析 的 方法 直接 计算 均值 差 值 的 分 布 。 假 设 怀 孕 
周期 服从 一 个 分 布 ， 均 值 为 ,方差 为 oa。 我 们 从 这 个 分 布 随机 抽取 
n 个 样本 ， 那 么 根据 中 心 极限 定理 ， 样 本 的 和 渐进 服从 Nnu, na”)。 
为 了 得 到 样本 均值 的 分 布 ， 这 里 需要 用 到 正 态 分 布 的 一 个 性 质 : 若 X 
服从 正 态 分 布 Nt,o )， 那 么 











aX+b~N(au+b, oo) 





102 | 第 7 章 


设 a=1/n，b=0， 等 式 两 边 同 除 以 n 则 
X/n~ Nuln, on’) 
所 以 样本 均值 渐进 服从 Nu, a”/n)。 


为 了 得 到 样本 均值 差 值 的 分 布 ， 我 们 需要 用 到 正 态 分 布 的 另 一 个 性 
质 : 若 闷 服从 N11, on)， X, 服 从 Us， 0 那么 


aX +bX,~(auit+b, aoitb’o,) 
这 种 情况 下 有 : 
X—X,~ (Kp, +o5) 


综 上 ， 可 知 图 7-1 的 分 布 服从 NM0, fo )， 这 里 大 1/n+1/m。 将 n=4413 
和 m=4735 代入 公式 ， 得 到 最 近 的 分 布 为 N(0, 0.0032)。 


我 们 用 erf .Normalcadf 来 计算 均值 差 值 的 p 值 : 





delta = 0.078 

sigma = math.sqrt(0.0032) 

left = erf.NormalCdf (-delta, 0.0, sigma) 
right = 1 - erf.NormalCdf (delta, 0.0, sigma) 


计算 得 到 的 双边 检验 的 p 值 为 0.168， 非 常 接近 我 们 用 重 抽样 的 方法 
计算 得 到 的 结果 0.166。 


读者 可 从 http://thinkstats.com/hypothesis_analytic.py 下载 本 节 所 用 到 
的 代码 。 


7.9 功效 


当 检 验 的 结果 为 阴性 时 ( 即 检验 结果 不 具备 统计 显著 性 )， 我 们 是 不 
是 就 可 以 认为 所 要 检验 的 效应 不 存在 呢 ? 这 其 实 还 依赖 于 所 用 的 统计 
检验 的 功效 。 


统计 功效 (statistical power) 指 的 是 在 原 假设 为 假 的 情况 下 ， 检 验 的 
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结果 为 阳性 的 概率 。 一 般 地 ， 一 个 统计 检验 的 功效 依赖 于 样本 数量 、 
效应 的 大 小 和 我 们 设置 的 国 值 a。 


习题 7-7 

7.2 节 中 ， 在 x=0.05 并 假设 两 个 分 组 真实 的 差异 等 于 0.078 周 的 情况 
下 ， 这 个 检验 的 功效 是 多 少 ? 如 果 a=0.1 呢 ? 

可 以 通过 从 两 个 分 布 中 生成 随机 样本 (满足 均值 差异 为 0.078) 来 估 
计 功 效 : 对 这 些 数据 进行 检验 ， 阳 性 结果 比例 就 是 这 种 检验 的 功效 。 


当 检 验 结果 为 阴性 时 ， 一 种 报道 检验 统计 功效 的 方式 是 : 如 果 出 现 的 
效应 为 x<， 那 么 这 种 检验 推翻 原 假设 的 概率 为 p ( 即 功 效 )。 











7.10 术语 
。 单元 格 (cell) 
在 卡 方 检验 中 ， 将 观测 按 一 定 的 标准 分 到 各 个 单元 格 里 ， 每 个 单元 格 
代表 一 种 分 类 。 





。 卡 方 检验 (chi-square test) 
用 卡 方 统计 量 做 统计 量 的 统计 检验 。 
交叉 验证 (cross-validation ) 
交叉 验证 使 用 一 个 数据 集 进 行 探 索性 数据 分 析 ， 然 后 用 另 一 个 数据 
集 进行 测试 。 
。 假 阴 性 (false negative) 
在 效应 真实 存在 的 情况 下 ， 我 们 认为 这 个 效应 是 由 偶然 因素 引起 的 。 





。 假 阳性 (false positive) 
在 原 假设 为 真 的 情况 下 ， 我 们 拒绝 了 原 假设 的 结论 。 





。 假设 检验 (hypothesis testing) 
判定 出 现 的 效应 是 否 具有 统计 显 鞋 性 的 过 程 。 
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似 然 比 (likelihood ratio ) 
一 种 概率 的 比值 ，P(EI4)/P(CEIB)， 这 里 4 和 B 是 两 种 假设 。 似 然 比 
不 依赖 于 先 验 概率 ， 可 以 用 来 报道 贝 叶 斯 统计 推断 的 结果 。 


原 假设 (null hypothesis) 
一 种 基于 以 下 假设 的 模型 系统 : 我 们 观测 到 的 效应 只 是 由 偶然 因素 
引起 的 。 


单 边 检 验 (one-sided test) 
一 种 检验 类 型 ， 关 注 的 是 出 现 比 观测 到 的 效应 更 大 (或 小 ) 的 效应 
的 概率 。 


pP 值 (p-value) 

在 原 假设 成 立 的 情况 下 ， 出 现 我 们 观测 到 的 效应 的 概率 。 

功效 (power) 

在 原 假设 为 假 的 情况 下 ， 检 验 推翻 原 假设 的 概率 。 

显著 性 (significant) 

我 们 说 某 个 效应 具有 统计 显著 性 指 的 是 这 种 情况 不 大 可 能 是 由 偶然 
因素 引起 的 。 





检验 统计 量 (test statistic ) 

衡量 观测 到 的 效应 与 原 假设 下 期 望 的 结果 之 间 偏 差 的 统计 量 。 
测试 集 (testing set) 

用 做 测试 的 数据 集 。 

训练 集 (training set) 

用 做 训练 的 数据 集 。 

双边 检验 (two-sided test) 

一 种 检验 类 型 ， 关 注 的 是 出 现 比 观测 到 的 效应 更 大 的 效应 的 概率 ， 
不 考虑 正 负 。 





假设 检验 | 105 


第 8 和 章 


估计 





8.1 关于 估计 的 游戏 


让 我 们 从 一 个 游戏 开始 。 我 想到 一 个 分 布 ， 然 后 让 你 去 猜 这 个 是 什么 
分 布 。 我 们 将 从 简单 的 情况 出 发 ， 逐 步 开始 我 们 的 讨论 。 





关于 我 心里 想到 的 那个 分 布 ， 我 会 提示 两 点 : 一 是 这 是 一 个 正 态 分 
布 ， 二 是 我 们 有 一 组 从 这 个 分 布 中 得 到 的 随机 样本 : 


{-0.441, 1.774, -0.101, -1.138, 2.975, -2.138} 
你 认为 这 个 分 布 的 均值 参数 / 会 是 多 少 呢 ? 


一 种 简单 的 方法 是 用 样本 的 均值 去 估计 4。 到 目前 为 止 ， 我 们 一 直 用 
4 这 个 符号 表示 样本 均值 和 分 布 的 均值 。 但 从 现在 开始 ， 我 们 将 区 分 
这 两 个 概念 。 我 们 用 表示 样本 均值 。 在 这 个 例子 中 ，x =0.155， 所 
以 我 们 有 理由 猜测 y=0.155。 











上 述 过 程 称 为 估计 (estimation)， 用 来 估计 分 布 参 数 的 统计 量 (在 这 
里 是 样本 均值 ) 称 为 估计 量 (estimator)。 


利用 样本 均值 来 估 值 4 似乎 无 可 厚 非 ， 我 们 很 难 再 想到 有 什么 比 它 更 











107 


好 的 估计 量 了 。 接 下 来 假设 我 们 改变 了 游戏 规则 ， 在 随机 样本 中 加 入 
一 些 异 常 值 。 

现在 游戏 变 成 这 样 : 我 想到 一 个 分 布 ， 然 后 告诉 猜 的 人 这 是 个 正 态 分 
布 。 但 是 随机 样本 是 由 一 个 粗心 的 人 来 抽取 ， 他 有 时 会 把 小 数 点 标 在 
错误 的 位 置 ， 于 是 最 终 得 到 了 这 样 的 一 组 数据 ; 


{—0.441, 1.774, -0.101, -1.138, 2.975, -213.8】} 





那么 这 时 对 4 的 估计 应 该 是 多 少 呢 ? 假如 我 们 还 是 用 样本 均值 ， 那 么 
估计 的 结果 是 -35.12。 这 是 最 好 的 估计 结果 吗 ? 有 没有 其 他 方法 可 以 
用 来 估计 4 呢 ? 

一 种 直观 的 方法 是 先 鉴定 出 异常 值 并 对 它们 进行 修剪 ， 然 后 再 用 剩 下 
的 样本 的 均值 来 估计 参数 。 除 此 之 外 ， 还 有 一 种 方法 是 用 中 位 数 作为 
估计 量 ， 而 不 再 用 样本 均值 。 

选择 哪 一 种 方法 要 视 具 体 情况 (例如 ， 是 否 存 在 异常 值 ) 和 估计 的 目 
的 而 定 ， 是 要 让 误差 最 小 ， 还 是 要 让 得 出 正确 答案 的 可 能 性 最 大 ? 
假设 不 存在 异常 值 ， 那 么 样本 均值 会 最 小 化 均 方 误差 (Mean Squared 
Error，MSE)。 假 设 我 们 多 次 进行 这 个 游戏 ， 每 次 游戏 结束 后 计算 
关公 ， 样 本 均值 会 使 得 下 式 达到 最 小 值 : 


MSE = D1) 











这 里 ，m 表示 的 是 游戏 进行 的 次 数 (这 里 不 要 同 n 混淆 了 , n 表示 的 
是 每 次 游戏 中 得 到 的 样本 的 数量 )。 


用 样本 均值 估计 4 能 最 小 化 均 方 误差 ， 这 是 一 个 非常 好 的 性 质 ， 但 它 
并 不 总 是 最 优 策略 。 例 如 : 假设 我 们 正在 评 佑 一 个 建筑 工地 的 风速 分 
布 ， 如 果 估 计 得 太 高 ， 我 们 可 能 会 建造 过 多 的 结构 ， 导 致 成 本 增加 ， 
但 如 果 估 计 得 过 低 ， 大 楼 可 能 会 倒塌。 这 时 误差 的 损失 函数 并 不 是 对 
称 的 ， 最 小 化 均 方 误差 就 不 是 最 优 策 略 了 。 


另 一 个 例子 ,假设 我 挪 了 三 次 六 面 民 子 然后 问 你 三 次 得 到 的 点 数 总 和 
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是 多 少 ， 如 果 你 猿 对 了 会 得 到 一 个 奖品 ， 猜 错 了 则 什么 也 没有 。 这 种 
情况 下 ， 如 果 我 们 要 让 均 方 误差 最 小 ， 得 到 的 结果 是 10.5， 显 然 这 是 
个 糟糕 的 数字 。 这 里 ， 你 需要 的 是 一 个 能 使 得 你 有 最 大 的 概率 猜 对 的 
估计 ， 也 即 极 大 似 然 佑 计量 (Maximum Likelihood Estimator, MLE)。 
如 果 你 选择 10 或 11， 那 么 你 将 有 1/8 的 机 会 猜 对 ， 这 个 才 是 你 的 最 
优选 择 。 


习题 8-1 
编写 一 个 函数 ， 从 一 个 均值 为 0、 方 差 为 1 的 正 态 分 布 中 产生 6 个 随 
机 数 ， 利 用 这 些 随 机 数 估计 均值 ， 并 计算 误差 + =。 运行 1000 次 这 
个 函数 ， 计 算 均 方 误差 。 

接 下 来 修改 一 下 函数 ， 改 为 用 中 位 数 作为 均值 的 估计 ， 再 计算 此 时 人 
计 的 均 方 误差 。 请 读者 试 着 比较 这 两 种 估计 的 差别 。 


8.2 方差 估计 


我 们 依然 从 上 一 市 那个 游戏 出 发 ， 现 在 我 想到 的 是 个 正 态 分布 ， 也 得 
到 了 一 批 样本 : 





{—0.441, 1.774, -0.101, -1.138, 2.975, —2.138} 


那么 这 个 分 布 的 方差 是 多 少 ? 同样 地 ， 直 观 的 想法 是 用 样本 方差 来 估计 
分 布 的 方差 。 我 们 用 $ 来 表示 样本 方差 ， 并 将 其 同 分 布 方差 c 区 分 开 。 








$=1 DD 





在 样本 数量 足够 多 的 情况 下 ，S? 是 一 个 很 好 的 估计 量 ; 但 是 如 果 样 本 
数量 很 少 ， 那 么 8 会 低估 只 。 因 为 这 个 不 幸 的 性 质 ，8 只 是 e 的 一 
个 有 偏 估计 。 

如 果 在 进行 很 多 次 游戏 之 后 ， 我 们 发 现 估计 量 与 真实 参数 的 误差 的 平 
均值 为 0， 那 么 我 们 就 称 这 个 估计 量 是 无 偏 的 (unbiased)。 的 一 个 
无 偏 估计 % 是 : 
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SU = D2) 


nl 





这 里 有 个 麻烦 是 “样本 均值 ”可 以 是 人 ,也 可 以 是 S51,， 并 没有 区 分 ， 
有 时 会 带 来 混乱 。 
http://wikipedia.org/wiki/Bias_of_an_estimator 解释 了 为 什么 SS 是 有 偏 


的 ， 同 时 证 明了 5 的 无 偏 性 。 


习题 8-2 
编写 一 个 函数 ， 从 一 个 均值 为 0、 方 差 为 1 的 正 态 分 布 中 产生 6 个 随 
机 数 ， 利 用 样本 方差 去 估计 只 ， 并 计算 估计 误差 S$-o 。 运 行 这 个 函数 
1000 次 ， 计 算 平均 的 误差 (这 里 没有 对 误差 进行 平方 )。 

接 下 来 修改 一 下 函数 ， 用 无 偏 估计 量 8 来 估计 方差 ， 并 计算 估计 的 
平均 误差 。 当 模拟 次 数 增加 ， 估 计 的 平均 误差 是 否 收敛 到 0 ? 





8.3 误差 
在 继续 讨论 之 前 ， 我 们 需要 理 清 一 些 概念 。 均 方差 和 有 偏 性 都 是 长 期 


概念 ， 是 在 多 次 进行 试验 后 得 到 的 结果 。 


在 进行 游戏 的 过 程 中 ， 我 们 不 可 能 知道 估计 的 误差 。 假 设 我 只 给 你 一 
个 样本 数据 ， 然 后 让 你 来 估计 分 布 的 参数 。 参 数 可 以 估计 出 来 ， 误 差 
却 无 从 得 知 。 如 果 你 能 知道 误差 是 多 少 ， 那 么 我 们 实际 上 就 不 用 这 个 
估计 量 了 。 


这 里 讨论 估计 误差 是 为 了 描述 不 同 的 估计 量 在 多 次 试验 下 的 表现 。 
本 章 的 目的 也 是 通过 一 系列 的 试验 来 检验 这 些 表现 。 由 于 我 们 的 试 
验 是 人 工 设置 的 ， 所 有 的 参数 都 是 已 知 的 ， 所 以 我 们 可 以 计算 出 误 
差 。 但 在 实际 的 数据 中 ， 我 们 并 不 知道 参数 的 真实 情况 ， 所 以 无 法 
得 到 误差 值 。 


接 下 来 回 到 我 们 的 讨论 。 
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8.4 指数 分 布 


还 是 那个 游戏 ， 但 现在 我 想到 的 是 指数 分 布 ， 并 且 得 到 了 一 组 样本 : 





{5.384, 4.493, 19.198, 2.790, 6.122, 12.844} 
那么 这 里 指数 分 布 的 参数 4 会 是 多 少 呢 ? 


因为 指数 分 布 的 均值 为 14， 所 以 根据 之 前 的 处 理 ， 我 们 会 选择 如 下 
的 估计 量 来 估计 14: 





A= 1/x 
一 般 情况 下 ， 我 们 给 待 估 的 参数 上 加 一 个 帽子 ， 以 此 来 表示 这 个 参数 
的 估计 量 。 这 里 不仅 是 4 的 估计 量 而 且 还 是 它 的 极 大 似 然 估计 量 ，" 
所 以 如 果 我 们 想 要 有 最 大 的 可 能 性 猜 对 4，4 是 最 好 的 选择 。 
但 是 我 们 出 现 异常 值 时 ，x 的 鲁 棒 性 不 好 ， 所 以 A 也 会 面临 同样 的 问题 
这 里 可 以 用 另 一 种 基于 中 位 数 的 方法 来 估计 4。 我 们 知道 指数 分 布 的 
中 位 数 等 于 log(2)4， 于 是 根据 前 面 的 做 法 ， 定 义 4 的 估计 量 为 : 

Ain 二 log (2) /1 
这 里 Hu 表示 的 是 样本 的 中 位 数 。 





习题 8-3 
请 通过 模拟 比较 一 下 4 和 入 的 均 方 误差 哪个 更 低 ， 并 检查 这 两 个 估计 
量 是 否 是 有 偏 的 。 

8.5 置信 区 间 


到 目前 为 止 ， 我 们 学 习 了 用 估计 量 产生 一 个 值 来 估计 参数 ， 这 种 方法 
称 为 点 估计 (point estimation) 。 在 很 多 问题 中 ， 有 时 我 们 更 希望 知道 





注 1: 参见 http://wikipedia.org/wiki/Exponential_distribution#Maximum_likelihood。 
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一 个 有 上 界 和 下 界 的 区 间 ， 这 个 区 间 能 够 覆盖 未 知 的 参数 。 


更 一 般 地 ， 我 们 想 知道 整个 分 布 的 情况 ， 也 就 是 分 布 参数 所 有 取 值 的 
范围 ， 在 此 范围 内 的 每 一 个 值 ， 以 及 每 个 值 的 可 能 性 。 








我 们 从 置信 区 间 (confidence interval) 这 个 概念 开始 。 
回 到 我 们 之 前 的 游戏 。 我 想到 一 个 指数 分 布 ， 然 后 告诉 你 一 组 样本 : 


{5.384, 4.493, 19.198, 2.790, 6.122, 12.844} 





接 下 来 ， 我 想 让 你 给 我 一 个 范围 ， 这 个 范围 有 很 大 的 可 能 性 覆盖 未 知 
参数 4。 更 具体 地 说 ， 我 想 要 一 个 90% 的 置信 区 间 ， 也 就 是 如 果 我 重 
复 地 进行 这 个 游戏 ， 平 均 而 言 这 个 区 间 能 90% 包含 1。 
这 样 的 游戏 有 点 太 难 了 ， 所 以 这 里 直接 给 出 了 答案 ， 读 者 可 以 试 着 去 
验证 一 下 结果 。 
我 们 通常 以 缺失 率 (miss rate) a 来 描述 置信 区 间 ，90% 的 置信 区 间 
对 应 的 a=0.1。 指 数 分 布 的 参数 4 的 置信 区 间 为 : 
3 和 (21,1 一 Qw/2) ;Xx (2n,04/2) 
(2 2n 4 2n ) 





? 


这 里 寻 表示 样本 数量 ，4 是 上 一 节 提 到 的 参数 的 均值 估计 。X 太 (5 x) 是 
自由 度 为 的 卡 方 分 布 的 累积 分 布 函 数 在 x 处 的 值 ( 卡 方 分 布 请 参 
http://wikipedia.org/wiki/Chi-square_distribution ) 。 


一 般 说 来 ， 很 难 用 分 析 的 方法 推导 出 参数 的 置信 区 间 ， 但 用 模拟 的 形 
式 来 估计 它 相对 容易 很 多 。 接 下 来 我 们 从 贝 叶 斯 统计 的 角度 来 讨论 参 
数 的 估计 。 


8.6 贝 叶 斯 估计 

假如 你 收集 了 一 些 样本 ， 然 后 根据 这 些 样 本 计算 出 了 参数 的 90% 的 置 
信 区 间 ， 这 似乎 意味 着 参数 有 90% 的 可 能 性 落 在 这 个 区 间 内 。 但 如 果 
从 频率 学 派 的 角度 来 看 ， 这 种 观点 是 错误 的 ， 因 为 他 们 认为 虽然 分 布 
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的 参数 未 知 ， 但 它 是 一 个 固定 的 数字 ， 并 不 是 一 个 随机 变量 
么 在 这 个 区 间 内 ， 要 么 不 在 。 这 样 频率 学 派 关于 概率 的 观点 在 ; 
不 适用 了 。 


那么 让 我 们 改变 一 下 游戏 的 规则 。 


我 想到 一 个 分 布 : 这 是 一 个 指数 分 布 ， 但 我 是 从 一 个 (0.5, 1.5) 的 均匀 
分 布 中 随机 抽 了 一 个 值 作 为 参数 14。 下 面 是 抽样 得 到 的 一 组 样本 ， 我 
们 用 和 表示 |; 


?9 











{2.675, 0.198, 1.152, 0.787, 2.717, 4.269} 

基于 这 组 样本 ， 你 觉得 4 的 值 会 是 多 少 ? 

在 这 个 版 本 的 游戏 中 , 4 是 一 个 随机 变量 ， 所 以 我 们 完全 可 以 讨论 它 
服从 什么 样 的 分 布 ， 并 且 使 用 贝 叶 斯 定理 很 容易 就 能 计算 出 结果 。 

下 面 是 计算 步骤 。 


1. 将 (0.5, 1.5) 划分 成 一 组 长 度 相等 的 小 区 间 。 对 每 个 小 区 间 ， 我 们 定 
义 假设 已 为 : 4 落 在 第 i 个 区 间 。 因 为 4 服从 均匀 分 布 ， 所 以 五 的 
先 验 概率 P(H) 对 所 有 的 i 都 是 相等 的 。 

2. 对 每 一 个 假设 及 ， 我 们 计算 似 然 函数 PIH)， 即 在 及 的 条 件 下 出 现 

样本 X 的 概率 ?; 


P(XIH) = II expo (Ai, x)) 











这 里 expo(4, x) 表示 的 是 参数 为 4 的 指数 分 布 在 x 处 的 概率 密度 函数 。 


PDF.,,(4, x)=Ae 和 


expo 


符号 开 的 意思 请 参考 http://wikipedia.org/wiki/Multiplication#Capital_ 


Pi_notation 。 























注 2: 这 里 对 已 进行 了 离散 化 处 理 ， 我 们 选择 第 站 个 小 区 间 中 的 一 个 值 志 来 代替 已 ， 因 
为 指数 分 布 的 参数 是 一 个 数 。 这 样 只 要 我 们 划分 的 区 间 数 量 足 够 多 ， 近 似 处 理 后 的 
结果 与 用 积分 方式 计算 的 结果 就 很 接近 。 一 一 译 者 注 
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3. 然后 利用 贝 叶 斯 定理 计算 后 验 概率 
PCz|O=PCUZDPCGIED 人 
7 是 一 个 归 一 化 因子 


小 三 PCUDPCXID) 


得 到 了 参数 的 后 验 分 布 后 ， 就 很 容易 计算 置信 区 间 了 。 例 如 ，90% 的 
置信 区 间 的 上 下 限 就 可 以 选择 后 验 分 布 95% 和 5% 的 百 分 位 数 。 





贝 叶 斯 置信 区 间 有 时 又 称 为 可 信 区 间 (credible interval) 。 贝 叶 斯 统计 
定义 的 置信 区 间 与 频率 学 派 定义 的 置信 区 间 之 间 的 差别 请 参考 http:// 


wikipedia.org/wiki/Credible_interval。 


8.7 贝 叶 斯 估计 的 实现 


我 们 可 以 用 Pmf 和 Cdf 等 表示 分 布 的 函数 来 表示 人 先 验 分 布 ， 但 是 因为 
我 们 要 将 假设 映射 为 概率 ， 所 以 Pmf 是 更 好 的 选择 。 

Pmf 的 每 一 个 取 值 都 代表 了 一 个 假设 ， 例 如 ，0.5 表示 假设 4=0.5。 
在 先 验 分 布 中 ， 所 有 假设 的 概率 相等 。 所 以 我 们 可 以 这 样 构造 先 验 
分 布 : 





def MakeUniformSuite(low, high, steps): 

hypos = [low + (high-low) * i / (steps-1.0) for i in 
range (steps)] 

pmf = Pmf.MakePmfFromList (hypos) 

return pmf 


这 个 函数 生成 了 4 先 验 的 Pmf，Pmf 所 有 取 值 构成 了 我 们 所 有 的 假设 ， 
我 们 把 这 个 假设 的 集合 称 为 一 个 suite。 所 有 假设 有 相同 的 概率 ， 所 以 
这 个 Pmf 是 一 个 均匀 分 布 。 


参数 low 和 high 定义 了 4 取 值 的 范围 ，steps 定义 了 假设 的 数量 。 


为 了 更 新 所 有 ;的 概率 ， 我 们 输入 先 验 Pmf 和 所 有 的 观测 数据 ( 即 所 
谓 的 “证 据 ”) : 
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def Update (suite，evidence) : 
for hypo in suite.Values () : 
likelihood = Likelihood (evidence, hypo) 
suite.Mult (hypo, likelihood) 
suite.Normalize() 


对 suite 中 的 每 一 个 假设 ， 将 假设 的 先 验 概 率 乘 以 在 这 个 假设 下 的 似 
然 值 ， 然 后 再 对 suite 进行 归 一 化 。 


在 这 个 函数 中 ，suite 必须 是 一 个 Pmf，evidence 数据 可 以 是 任意 
形式 ， 只 要 Likelihood 国 数 能 够 识别 就 行 。 


Likelihood 国 数 的 定义 为 ; 


def Likelihood (evidence, hypo): 
param = hypo 
likelihood = 1 
for x in evidence: 
likelihood *= ExpoPdf (x, param) 


return likelihood 


在 Likelihood 中 ， 我 们 将 evidence 当成 是 一 组 来 自 指数 分 布 的 样 
本 ， 它 可 以 计算 上 一 节 的 了。 


ExpoPdf 计算 指数 分 布 在 x 处 的 概率 密度 : 


def ExpoPdf (x, param): 
p = param * math.exp(-param * x) 
return bp 


将 这 些 代码 放 在 一 起 ， 我 们 就 可 以 构造 4 先 验 分 布 ,并且 计算 其 后 验 
分 布 : 


evidence = [2.675, 0.198, 1.152, 0.787, 2.717, 4.269] 
prior = MakeUniformSuite(0.5, 1.5, 100) 

posterior = prior.Copy() 

Update (posterior, evidence) 





读者 可 以 从 这 里 下 载 本 节 用 到 的 代码 http://thinkstats.com/estimate.py。 


在 芳 虑 贝 叶 斯 估计 的 时 候 ， 我 会 想象 有 满 请 一 屋子 的 人 在 猜测 一 个 我 
想 要 估计 的 值 ， 在 这 个 例子 里 这 个 值 就 是 4。 起 初 ， 屋 里 的 每 一 个 人 
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都 对 自己 猜测 的 值 有 一 个 置信 度 〈 即 相信 有 多 大 的 可 能 性 猜 对 )。 

当 观 测 到 新 的 证 据 后 ， 所 有 人 都 根据 PCEID) 对 自己 的 置信 度 进 行 更 
新 ， 这 里 P(E|Dz) 指 的 是 认为 起 初 猪 测 正 确 的 假设 下 ，E 的 似 然 值 。 
通常 似 然 函 数 会 计算 出 概率 ， 其 最 大 值 为 1!。 因 此， 一 开始 每 个 人 的 
置信 度 通 常会 下 降 (或 保持 不 变 )， 但 当 我 们 对 结果 进行 归 一 化 后 ， 
每 个 人 的 置信 和 度 又 会 上 升 。 

所 以 ， 上 述 过 程 的 净 效 应 就 是 有 些 人 的 置信 度 上 升 了 7， 有 些 人 的 下 降 
了 。 而 这 取决 于 他 们 假设 的 相对 似 然 值 。 


8.8 删 失 数据 
下 面 的 问题 来 自 David MacKay 的 Information Theory, Inference and 


Learning Algorithms 一 书 的 第 3 章 。 有 具体 内 容 读 者 可 从 这 里 下 载 
http://www.inference.phy.cam.ac.uk/mackay/itprnn/ps/。 





一 个 不 稳定 的 粒子 从 放射 源 射 出 ， 粒 子 衰 变 的 距离 为 x。 理论 
上 ,Xx 服从 一 个 参数 为 4 的 指数 分 布 。 实 际 中 ,衰变 仅 能 在 一 
个 长 度 从 1 cm 到 20 cm 的 窗口 内 观测 到 。 假 设 我 们 观测 到 了 n 
次 衰变 ， 衰 变 的 位 置 为 {Xi,… ,Xvy}， 那 么 4 是 多 少 ? 
这 是 一 个 有 删 失 数据 (censored data) 的 估计 问题 ， 即 有 些 数据 被 系统 性 
地 排除 在 外 了 。 


贝 叶 斯 估计 一 个 很 大 的 优势 是 它 可 以 相对 容易 地 处 理 删 失 数据 。 只 要 
稍微 改 一 下 上 一 节 用 到 的 方法 就 可 以 处 理 这 个 例子 中 的 问题 ， 我 们 将 
上 ED 替换 成 PDF.。a: 





PDF.a (A,x) = Ae “*/Z(4) 
这 里 1<x<20， 其 他 情况 表达 式 的 值 为 0, 并且 
Z00 = /herdr=0"—e™ 





这 里 的 ZQ) 在 习题 6-5 中 出 现 过 。 
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习题 8-4 
请 下 载 http:/Wthinkstats.comy/estimate.py， 并 将 下 载 文件 命名 为 decay.py， 
这 个 文件 包含 了 本 章 前 几 闻 所 用 到 的 代码 。 

请 修改 decay.py， 然 后 计算 在 得 到 观测 X={1.5, 2, 3, 4, 5, 12} 后 4 的 
后 验 分 布 。 这 里 4 的 先 验 分 布 可 以 选择 0 到 1.5 之 间 的 均匀 分 布 (不 
包含 0)。 


读者 可 以 从 http://thinkstats.com/decay.py 下 载 到 问题 的 一 种 解答 。 


习题 8-5 

在 2008 年 明尼苏达 州 的 参议 员 选 举 中 ，Al Franken 得 到 了 1 212 629 
张 选 要 ，Norm Coleman 得 到 了 1 212 317 张 选 要 。Franken 被 宣布 
胜 选 。 但 是 Charles Seife 却 指出 这 次 选举 结果 是 无 效 的 ， 因 为 票数 
差异 的 幅度 远 小 于 误差 的 幅度 ， 所 以 投票 结果 应 该 是 两 位 竞选 人 打 
成 平手 。 

假设 在 登记 选票 时 ， 有 可 能 会 漏 记 选票 ， 也 有 可 能 会 将 同一 张 选票 登 
记 两 次 ， 那 么 Franken 真正 赢得 选举 的 概率 是 多 大 ? 


提示 : 这 里 必须 添加 一 些 细 市 来 完成 建 模 过 程 。 


8.9 火车 头 问 题 


火车 头 问题 是 一 个 非常 经 典 的 估计 问题 ， 又 叫 “ 德 国 坦克 问题 ”。 下 
面 是 Mosteller 在 Fifty Challenging Problems in Probability 中 提 到 的 
版 本 : 


铁路 公司 将 它 所 有 的 火车 头 都 进行 了 编号 ， 从 1 到 N。 有 一 天 
你 看 见 一 个 编号 为 60 的 火车 头 ， 那 该 铁路 公司 总 共有 多 少 火 
车 头 呢 ? 


在 接着 往 下 讨论 之 前 ， 我 们 先 想 想 如 下 问题 。 





1. 对 于 一 个 给 定 的 估计 六 ， 观 测 的 似 然 国 数 是 什么 ?》 极 大 似 然 佑 计量 
是 什么 ? 


2. 假如 我 们 看 到 编号 为 i 的 火车 ， 我们 有 理由 猜 济 一 个 乘 数 a， 并 用 


N =ai 来 估计 总 的 火车 数 。 那 么 我 们 该 怎么 样 选择 a 使 得 估计 的 结 
果 能 使 均 方 误差 最 小 ? 





3. 仍然 假设 N =ai, 我 们 能 找到 一 个 使 得 六 为 无 偏 估 计量 的 5 吗 ? 
4. 和 是 多 少时 60 会 是 观测 到 的 平均 值 ? 


5. 在 假设 先 验 概率 为 1 到 200 上 的 离散 均匀 分 布 的 条 件 下 ， 贝 叶 斯 后 
验 分 布 是 什么 样子 的 ? 





对 于 一 个 给 定 的 佑 计量 访 ， 观 测 到 编号 为 i (i<N) 的 火车 的 概率 为 
LN，i> 六 的 概率 为 0。 所 以 六 的 极 大 似 然 佑 计量 是 N = i。 换 言 之 ， 
如 果 观 测 到 的 火车 的 编号 是 60， 而 且 我 们 要 以 最 大 的 概率 保证 结果 的 
正确 性 ， 那 么 我 们 就 会 猜测 铁路 公司 有 60 辆 火车 。 

但 是 极 大 似 然 估计 的 结果 从 均 方 误差 的 角度 来 看 并 不 理想 。 我 们 可 以 
通过 选择 一 个 入 = gi 使 得 估计 量 的 均 方 误差 达到 最 小 ， 这 里 唯一 需要 
做 的 是 估计 好 a 的 值 。 





假设 实际 会 有 NN 辆 火车 。 我 们 看 到 编号 为 i 的 火车 后 就 猜测 铁路 公司 
有 ai 辆 火车 ， 那 么 平方 误差 为 (ai-_-N) 。 


假设 我 们 观测 了 N 次 ， 且 看 到 了 所 有 的 火车 ， 那 么 均 方差 就 是 : 
MSE = DC —N)’ 


为 了 使 均 方差 最 小 ， 我 们 对 a 进行 求 导 : 
MSE -~ 1 坝 >2ilai- 
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粗略 看 来 这 个 结果 似乎 没什么 用 ， 因 为 等 式 的 右边 有 N。 我 们 要 想 知 
道 4 就 必须 知道 Y， 但 是 如 果 我 们 知道 了 W， 上 面 的 估计 就 全 然 不 需 
要 了 。 


考虑 到 N 很 大 的 时 候 a 收敛 于 3/2， 所 以 这 里 选择 对 NN 的 估计 量 为 丸 
=31/2。 


再 从 无 偏 估计 的 角度 出 发 ， 首 先 计 算 平均 误差 : 
ME = 让 > —N) 


令 ME=0， 得 到 
2N 
N-1 
当 N 很 大 时 ，a 收敛 到 2， 所 以 这 里 我 们 又 可 以 选择 NN =2i。 


到 目前 为 止 ， 我 们 已 经 构造 了 3 个 估计 量 : i、3i/2 和 2i， 分 别 满足 极 
大 似 然 、 最 小 均 方 误差 和 无 偏 性 。 


我 们 还 有 另外 一 种 估计 的 方式 : 选择 满足 总 体 均值 等 于 样本 均值 的 广 
作为 的 佑 计量。 假设 我 们 观测 到 一 辆 火车 的 编号 为 i， 样 本 均值 恰 
好 也 为 i， 这 时 满足 群体 的 均 入 值 等 于 样本 均值 的 火车 数 的 估计 量 为 
N= 2i—-1,。 
最 后 ， 我 们 从 贝 叶 斯 统计 的 角度 来 回答 这 个 问题 。 我 们 计算 
P(i|H)P(H,) 

PO 


六 至 





P(H.|?) = 


这 里 五, 是 一 个 假设 ,假设 总 共有 nn 辆 火车 。i 表示 我 们 的 观测 ， 即 观 
测 到 的 火车 的 编号 。 当 i<n 时 ，P(i|H,)=1/m， 其 余 情 况 为 0，P(i) 是 归 
一 化 常数 。 

如 果 六 的 先 验 分 布 是 1 到 200 上 的 一 个 均匀 分 布 ， 我 们 就 遍历 这 200 
种 假设 ， 并 计算 每 种 假设 的 后 验 概 率 。 读 者 可 以 从 http://thinkstats. 
com/locomotive.py 下 载 到 实现 所 用 的 代码 。 最 终 的 结果 如 图 8-1 所 示 。 
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火车 头 问 题 
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图 8-1: 火车 数 后 验 分 布 


根据 贝 叶 斯 后 验 概 率 ， 我 们 得 到 90% 的 可 信 区 间 为 [63, 189]， 这 仍然 
是 一 个 非常 大 的 范围 。 仅 仅 观 测 到 一 辆 火车 的 编号 并 不 能 为 任意 假设 
提供 非常 强 的 证 据 ， 虽 然 它 将 n<i 的 可 能 性 排除 在 外 了 。 


如 果 一 开始 我 们 设 定 不 同 的 先 验 概 率 ， 后 验 概率 就 会 显著 不 同 ， 这 能 
帮助 你 理解 为 什么 其 他 估计 量 有 多 个 。 


本 而 我 们 针对 同一 个 参数 构造 了 多 个 不 同 的 佑 计量， 我 们 可 以 认为 这 
些 是 从 一 些 不 够 精确 的 先 验 出 发 得 到 的 结果 。 假 如 有 足够 的 先 验 信 
息 ， 那么 这 些 估计 量 将 倾向 于 收敛 到 同一 个 值 。 总 之 ， 在 我 们 的 例子 
里 ， 疫 有 一 个 统计 量 能 够 满足 我 们 期 望 的 所 有 性 质 。 





习题 8-6 
推广 locomotive.py， 使 之 能 处 理 当 观测 到 的 火车 数 多 于 1 辆 时 的 情 
况 ， 读 者 只 需 改动 几 行 代码 就 可 以 完成 。 
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看 看 你 能 否 回答 上 述 情况 下 的 其 他 问题 。 维 基 百 科 页 面 http://wikipedia. 
org/wiki/German_tank_problem 提供 了 更 多 的 问题 和 讨论 。 


8.10 术语 


有 偏 性 (bias ) 


在 平均 多 次 试验 的 结果 后 ， 一 个 估计 量 倾向 于 高 估 或 者 低估 真实 的 


参数 值 。 


删 失 数据 (censored data ) 


一 种 数据 集 ， 数 据 来 源 于 某 种 采集 方式 ， 但 是 这 种 采集 方式 会 系统 


性 地 排除 某 些 数据 。 


置信 区 间 (confidence interval) 


一 种 参数 的 区 间 估 计 ， 以 一 定 的 概率 包含 待 估计 的 参数 。 


可 信 区 间 (credible interval) 
贝 叶 斯 统计 理论 中 的 置信 区 间 。 


估计 (estimation) 


用 样本 信息 估计 分 布 中 未 知 参数 的 过 程 。 





估计 量 (estimator) 


用 于 估计 参数 的 统计 量 。 


极 大 似 然 估 计量 (maximum likelihood estimator) 
使 得 似 然 函数 最 大 化 的 估计 。 

均 方 误差 (mean squared error) 

一 种 衡量 估计 误差 的 值 。 


点 估计 (point estimate ) 


用 单一 的 值 估 计 某 个 参数 。 
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相关 性 





9.1 标准 分 数 

本 章 我 们 将 开始 关注 变量 与 变量 之 间 的 关系 。 例 如 ， 我 们 会 觉得 一 般 

而 言 身高 越 高 的 人 体重 越 重 。 相 关 (correlation) 就 是 用 来 描述 这 种 

类 型 的 关系 的 。 

在 衡量 相关 关系 的 时 候 会 出 现 的 一 个 问题 是 ， 两 个 变量 有 不 同 的 度量 

衡 。 如 身高 是 用 厘米 度量 的 ， 而 体重 则 是 用 千克 衡量 的 。 还 有 一 个 问 

题 ， 即 使 两 个 变量 有 相同 的 单位 ， 它 们 的 分 布 也 不 同 。 

有 两 种 方法 可 以 解决 这 些 问 题 。 

1. 将 所 有 的 值 转换 成 标准 分 数 (standard score)， 这 就 引出 了 皮尔 还 
相关 系数 。 

2. 将 所 有 的 值 转换 成 百 分 等 级 ， 这 就 引出 了 斯 皮尔 曼 相 关系 数 。 

假设 XX 是 一 个 序列 ,x; 是 其 中 的 一 个 值 ， 我 们 定义 标准 分 数 的 转换 公 

式 为 z=(x-1)/o， 这 里 1 表示 序列 的 均值 ，o 表示 标准 差 。 


转换 公式 的 分 子 表示 一 个 离 差 ， 是 x 与 均值 的 差异 。 除 以 o 是 为 了 归 
一 化 偏差 。 这 样 Z 的 单位 就 为 1， 而且 均值 为 0， 方差 为 1。 
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Z 的 分 布 形状 与 X 相 似 ， 即 如 果 X 是 一 个 正 态 分 布 ， 那 么 Z 也 是 一 个 
正 态 分 布 ， 如 果 匀 的 分 布 函 数 非 对 称 ， 或 者 有 一 些 异 常 值 ， 那 么 Z 也 
是 如 此 。 这 类 情况 下 ， 百 分 等 级 转换 会 提供 更 为 鲁 棒 的 结果 。 如 R 是 
和 的 一 个 百 分 等 级 转换 结果 ， 那 么 不 论 和 服从 什么 类 型 的 分 布 ,， 尺 都 
服从 0 到 100 上 的 均匀 分 布 〈R 的 单位 为 %)。 


9.2 协 方 差 


协 方差 (covariance) 可 以 用 来 衡量 相关 变量 变化 趋势 是 否 相 同 。 假 
设 我 们 有 两 列 序列 X 和 了 了 ， 它 们 与 其 均值 离 差 为 : 





dx 一 Xi 一 ALx 
dy 一 ULy 


这 里 jx 是 XX 的 均值 , 凡是 了 的 均值 。 如 果 和 和 了 的 变化 方向 一 致 ， 
那么 它们 与 均值 的 离 差 应 有 相同 的 正 负 号 。 


如 果 我 们 将 二 者 的 离 差 相 乘 ， 那 么 当 二 者 的 符号 相同 时 ， 乘 积 为 正 
数 。 所 以 这 些 乘积 加 和 的 结果 可 以 用 来 衡量 两 个 序列 变化 是 否 一 致 。 


协 方差 就 是 这 些 乘 积 结果 的 平均 值 ; 
-二 
Cov(X,7) = 记忆 drdy 
这 里 n 表示 序列 的 长 度 (X 和 了 必须 有 相同 的 长 度 )。 


协 方差 的 计算 比较 简单 ， 但 我 们 一 般 较 少 使 用 ， 因 为 这 个 值 很 难 解 释 。 
另 一 个 问题 是 ， 协 方差 的 单位 是 X 和 了 的 单位 的 乘积 。 在 前 面 的 那个 例 
子 里 ， 这 个 单位 就 是 千克 x 厘米 ,我 们 还 很 难说 这 个 单位 有 什么 意义 。 





习题 9-1 
请 编写 一 个 计算 两 个 数据 序列 协 方 差 的 函数 cov， 为 了 测试 你 写 的 函 
数 ， 可 以 计算 两 个 相同 序列 的 协 方差 ， 确 保有 Cov(X, X)=Var(X)。 


读者 可 以 从 http://thinkstats.com/correlation.py 下 载 到 答案 。 
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9.3 相关 性 
解决 上 一 节 协 方差 遇 到 的 问题 的 方法 是 用 标准 分 数 来 代替 原始 的 值 ， 
计算 两 个 标准 分 数 的 乘积 : 

pi = Gi — Hx) Wi— Lr) 





Ox Or 
这 些 乘 积 的 均值 为 : 
_ 工 
O 三 Pi 


这 个 值 称 为 皮尔 还 相关 系数 (Pearson’s correlation)， 用 以 纪念 现代 统 
计 学 创立 者 卡尔 ' 皮尔 逊 。 相 比 于 协 方差 ， 相 关系 数 很 容易 计算 ， 更 
重要 的 是 ， 它 的 结果 更 容易 解释 。 相 关系 数 的 单位 为 1。 


相关 系数 p 的 取 值 为 -1 到 1 之 间 。 我 们 改写 一 下 p 的 表达 形式 就 可 
以 很 容易 得 到 这 个 结果 : 


_ Cov(X,7) 
P= OxOY 
将 离 差 项 代入 公式 ， 可 得 
0 _ >》 dxd)y 
2 2 dy 


利用 著名 的 柯 西 一 施 瓦 兹 不 等 式 ”(Cauchy-Schwarz inequality) 即 可 
证 明 p 三 1, 故而 有 -1 三 p 三 1。 


p 的 绝对 值 的 大 小 代表 两 个 变量 相关 的 程度 。 当 p=1 时 ， 两 个 变量 完 
相关 ， 即 如 果 我 们 知道 了 其 中 一 个 变量 的 值 ， 就 可 以 精确 预测 另 一 个 变 
量 的 值 。p=-1 时 也 是 同样 的 情况 ， 只 是 两 个 变量 是 完全 负 相 关 而 已 。 


现实 中 大 部 分 的 相关 都 没有 这 么 完全 ， 但 是 相关 系数 仍然 提供 了 一 些 有 
用 的 信息 。 例 如 ， 在 知道 了 一 个 人 的 身高 后 ， 我 们 猜测 这 个 人 的 体重 ， 
虽然 我 们 不 大 可 能 猿 对 ,但 是 相 比 于 不 知道 身高 的 情况 下 ， 我 们 依然 可 
以 猜测 得 更 准确 。 皮 尔 迎 相关 系数 衡量 了 我 们 能 够 多 准确 地 猜测 结 末 。 








注 1: 参见 http://wikipedia.org/wiki/Cauchy-Schwarz_inequality。 





如 果 p=0， 这 是 不 是 意味 着 两 个 变量 之 间 训 无 关系 呢 ? 不 幸 的 是 我 们 
不 能 得 出 这 个 结论 。 皮 和 尔 逊 相关 系数 只 是 衡量 两 个 变量 之 间 的 线性 关 
系 。 如 果 两 个 变量 之 间 的 关系 不 是 线性 的 ， 那 么 p 可 能 低估 两 个 变量 
之 间 的 相关 性 。 





图 9-1 来 源 于 http://wikipedia.org/wiki/Correlation_and_dependence。 
中 展示 了 一 些 精心 构造 的 数据 的 散 点 图 及 对 应 的 相关 系数 。 








1.0 0.8 0.4 5 一 0.8 一 1.0 
1.0 1.0 1.0 一 1.0 一 1.0 一 1.0 
a 一 一 ms > 忆 到 














图 9-1: 具有 一 定 相关 性 的 示例 数据 集 


图 中 第 一 行 展示 了 几 组 有 线性 相关 性 的 数据 的 相关 系数 ， 我 们 可 以 直 
观 地 了 解 这 些 相 关系 数 大 约会 对 应 到 什么 水 平 的 关系 。 第 二 行 展示 了 
完全 相关 的 数据 的 相关 系数 ， 这 里 我 们 发 现 相 关系 数 跟 斜 率 是 无 关 的 
( 稍 后 就 会 讲 到 估计 斜率 )。 第 三 行 展示 了 一 些 有 明显 相关 性 的 数据 ， 但 
由 于 这 些 关 系 不 是 线性 的 ， 这 里 的 皮尔 逊 相关 系数 等 于 0。 


这 提醒 我 们 别 盲 目地 相信 这 个 系数 ， 在 计算 相关 系数 之 前 ， 一 定 要 夯 
个 散 点 图 观察 一 下 数据 。 











习题 9-2 
请 编写 一 个 计算 相关 系数 的 函数 corr， 该 函数 可 接受 两 组 数据 。 提 
示 : 这 里 可 以 用 到 之 前 的 函数 thinkstats.Var 和 Cov。 
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可 以 通过 计算 Corr(X, X) 是 否 等 于 1 来 测试 函数 是 否 正确 。http:/ 
thinkstats.com/correlation.py 提供 了 一 个 答案 。 


9.4 用 pyplot 画 散 点 图 


散 点 图 是 探测 两 个 变量 是 否 具有 相关 性 的 最 简单 的 方法 ,但 是 要 画 一 
张 高 质量 的 散 点 图 并 不 容易 。 接 下 来 我 们 用 4.5 节 所 提 到 的 行为 危险 
因素 监控 系统 (BRFSS) 中 的 身高 和 体重 做 图 。pyplot 中 提供 了 一 
个 画 散 点 图 的 函数 scatter: 








import matplotlib.pyplot as pyplot 
pyplot.scatter (heights, weights) 


图 9-2 是 画 出 来 的 结果 。 从 图 中 可 以 看 到 二 者 确实 是 正 相 关 的 ， 身 高 
较 高 的 人 体重 较 大 。 但 这 个 结果 并 不 理想 ， 图 中 明显 可 以 看 到 数据 点 
被 分 成 一 列 列 的 。 这 是 因为 在 收集 身高 数据 时 ， 是 以 英寸 为 基本 单位 
收集 的 ， 转 换 成 厘米 之 后 也 进行 了 取 整 。 这 样 就 丢失 了 一 些 信息 。 
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图 9-2: BRFSS 中 被 调查 者 体重 一 身高 简易 散 点 图 





显然 那些 丢失 的 信息 已 经 无 可 挽回 ， 但 我 们 可 以 给 每 个 身高 数据 加 一 
个 随机 扰动 来 尽 可 能 地 使 数据 回 到 之 前 的 样子 。 因 为 数据 是 以 英寸 为 
单位 收集 的 ， 我 们 可 以 给 它们 加 上 一 个 扰动 (jitter) ， 这 里 给 它们 加 
上 一 个 [-0.5, 0.5] 英寸 上 的 均匀 分 布 的 随机 数 ， 换 算 成 厘米 后 的 范围 
是 [-1.3, 1.3] 





Jitter =, 工 .3 
heights = [h + random.uniform(-jitter, jitter) for h in 
heights] 


图 9-3 展示 了 处 理 后 的 数据 的 散 点 图 。 图 中 的 趋势 更 加 明显 了。 一般 
情况 下 我 们 可 以 通过 这 种 方法 来 得 到 更 有 说 服 力 的 图 ， 不 过 ， 在 进行 
数据 分 析 时 就 必须 用 原始 数据 。 





























图 9-3: 数据 进行 扰动 处 理 后 的 散 点 图 

即使 进行 了 上 述 数 据 扰动 处 理 ， 我 们 可 能 依然 无 法 很 好 地 展示 数据 。 
因为 图 中 有 很 多 点 重 倒 在 一 起 ， 这 样 就 隐藏 了 图 中 密集 度 高 的 一 些 数 
据 的 信息 ， 同 时 可 能 会 过 分 凸显 那些 异常 值 。 
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我 们 可 以 引入 一 个 透明 度 参数 a 来 解决 这 个 问题 : 
pyplot.scatter (heights, weights, alpha=0.2) 


图 9-4 展示 了 增加 透明 度 后 的 结果 。 图 中 有 重 得 的 点 看 起 来 颜色 更 深 
了 ， 这 样 颜色 深度 就 跟 点 的 密度 成 比例 地 变化 。 图 中 在 90 kg 附近 有 
一 个 明显 的 横 线 ， 数 据 是 被 调查 者 提供 的 ， 所 以 这 里 最 可 能 的 原因 是 
人 们 对 体重 的 数据 进行 了 取 整 或许 他 们 想 让 自己 的 体重 看 起 来 更 轻 


二 坚 儿 
































身高 (cm) 





图 9-4: 数据 进行 扰动 处 理 并 引入 透明 度 参数 后 的 散 点 图 


这 样 的 图 很 适合 用 在 那些 数据 量 不 是 很 大 的 情况 。 这 里 我 们 仅 用 了 
BRFSS 中 的 1000 个 数据 ， 而 BRFSS 总 共 包 含 了 414 509 个 数据 。 





当 我 们 要 处 理 大 量 的 数据 时 ， 上 述 方法 可 能 看 起 来 都 会 一 团 糟 。 我 们 
可 以 用 一 种 称 为 nexbin 的 方法 来 处 理 这 样 的 问题 ， 首先 将 图 分 成 一 
个 个 小 格子 ， 统 计 每 个 格子 中 有 多 少 个 数据 点 ， 然 后 根据 格子 中 点 的 
个 数 来 上 色 。pyplot 提供 了 一 个 nexbin 函数 来 实现 这 个 功能 : 
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pyplot.scatter (heights, weights, cmap=matplotlib.cm.Blues) 


图 9-5 展示 了 hexbin 的 结果 。 这 种 图 的 好 处 是 能 展示 出 数据 关系 的 
整体 形状 ， 对 于 大 型 数据 集 非 常 高 效 ， 但 缺点 是 我 们 可 能 看 不 见 那些 
异常 值 了 。 
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图 9-5: 使 用 hexbin 函数 绘制 的 散 点 图 


上 述 例子 告诉 我 们 ， 要 画 一 张 能 真实 反映 数据 关系 的 散 点 图 并 不 是 一 
件 容 易 的 事情 。 读 者 可 以 从 http://thinkstats.com/brfss_scatter.py 下 载 
到 本 闻 画 图 所 用 的 代码 。 


9.5 斯 皮尔 曼 秩 相关 

如 果 两 组 数据 的 变量 分 别 大致 正 常 ， 而 且 两 者 呈 线 性 关系 ， 那 么 皮尔 
逊 相 关系 数 可 以 很 好 地 刻画 它们 之 间 的 关系 。 但 是 皮尔 逊 相关 系数 对 
异常 值 的 影响 很 敏感 。 
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Anscombe 构造 的 4 组 数据 (Anscombe’s quartet) 很 明显 地 说 明了 这 
个 问题 。 这 4 个 数据 集 有 相同 的 相关 系数 : 第 一 个 是 两 组 变量 呈 线 性 
关系 ， 但 有 随机 噪声 的 影响 ， 第 二 个 是 两 组 变量 呈 某 种 非 线性 的 函 
数 关系 ; 第 三 个 是 两 组 变量 呈 完 全 的 线性 关系 ， 但 是 有 一 个 异常 值 ， 
最 后 一 个 是 两 组 变量 并 无 相关 性 ， 但 一 个 异常 值 除外 。 读 者 可 以 从 
http://wikipedia.org/wiki/Anscombe’s_quartet 了 解 到 更 具体 的 信息 。 


斯 皮尔 曼 秩 相关 系数 (Spearman’s Rank Correlation) 可 以 用 在 存在 异 
常 值 和 变量 分 布 非常 不 对 称 的 情况 。 为 了 计算 斯 皮尔 曼 秩 相关 系数 ， 
我 们 先 计算 序列 中 数值 的 秩 (rank) ， 即 某 个 值 在 序列 中 按 大 小 排序 后 
的 位 置 。 例 如 在 序列 {7, 1, 2, 5} 中 , 值 5 的 秩 等 于 3， 因 为 按 从 小 到 
大 排序 ，5 在 这 个 序列 中 排 第 3 位 。 将 序列 转换 成 秩 之 后 ， 再 计算 皮 
尔 逊 相关 系数 ， 得 到 的 结果 就 是 斯 皮尔 曼 秩 相关 系数 。 


除了 斯 皮尔 曼 秩 相关 系数 ， 另 一 种 方法 是 对 原始 的 数据 做 一 个 变换 ， 
使 得 变换 之 后 的 结果 接近 正 态 分 布 ， 然 后 再 算 皮 尔 逊 相关 系数 。 例 
如 ， 如 果 数 据 近似 服从 对 数 正 态 分 布 ， 那 么 我 们 可 以 先 对 数据 取 对 
数 ， 然 后 再 算 相关 系数 。 





习题 9-3 
请 编写 一 个 计算 数据 序列 的 秩 的 函数 。 例 如 ， 设 一 个 数据 序列 为 {7， 
1, 2, 5}， 做 秩 转 换 后 结果 为 {4, 1, 2, 3}。 

如 果 数 据 序列 中 出 现 多 个 相同 的 值 ， 那 么 严格 的 做 法 是 给 这 些 数值 赋 
予 一 个 秩 的 平均 值 。 但 如 果 不 这 么 严格 ,而 是 随意 地 给 这 些 值 安排 个 
顺序 ， 一 般 也 不 会 造成 什么 误差 。 

请 编写 一 个 函数 ， 计 算 两 个 数据 序列 的 斯 皮尔 曼 秩 相关 系数 。 读 者 可 
以 从 http://thinkstats.com/correlation.py 下 载 本 题 的 答案 。 





习题 9-4 
请 下 载 http://thinkstats.com/brfss.py 和 http://thinkstats.com/brfss_scatter.py 
并 运行 这 些 代码 。 确 保 你 能 读 懂 BFRSS 数据 ， 然 后 生成 散 点 图 。 
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将 生成 的 图 与 图 9-1 做 比较 ， 你 期 望 这 里 的 皮尔 进 相关 系数 会 是 多 
少 ? 计算 得 到 的 结果 呢 ? 


成 人 体重 大 致 服从 对 数 正 态 分 布 ， 也 有 相关 的 异常 值 影响 。 请 绘制 体 
重 的 对 数 与 身高 的 散 点 图 ， 并 计算 变换 后 的 皮尔 逊 相关 系数 。 


最 后 ， 请 计算 体重 和 身高 的 斯 皮尔 曼 秩 相关 系数 。 你 觉得 哪个 相关 系 
数 能 更 好 地 描述 这 两 个 变量 关系 的 强度 ?可 从 http://thinkstats.com/ 
brfss_corr.py 下 载 到 问题 的 答案 。 


9.6 最 小 二 乘 拟 合 

相关 系数 可 以 衡量 两 个 变量 之 间 线 性 相关 的 强度 和 正 负 ， 但 是 无 法 知 
道 它 们 的 斜率 。 有 很 多 方法 可 以 用 来 估计 斜率 ， 其 中 线性 最 小 二 乘 拟 
合 (linear least square fit) 是 最 常用 的 一 种 方法 。 线 性 拟 合 (linear 
fit) 指 的 是 用 一 个 线性 的 方程 来 拟 合 两 个 变量 之 间 的 关系 。 最 小 二 乘 
法 (least square) 是 使 拟 合 函数 与 数据 之 间 的 均 方 误差 达到 最 小 的 拟 
合 方 法 “。 

假设 我 们 有 一 个 数据 序列 X， 要 通过 X 的 一 个 国 数 来 预测 另 一 个 数据 
序列 7Y。 如 果 这 个 预测 函数 是 线性 的 ， 截 距 为 wx， 斜率 为 6， 那么 我 们 
可 以 预期 六 大 约会 等 于 atpx。 

除非 这 两 个 序列 是 完全 线性 相关 的 ， 否 则 我 们 只 能 近似 地 预测 了 的 
值 。 预 测 的 离 差 (或 称 残 差 ) 为 : 


























&= (+Pr)—y 


残 差 的 出 现 可 能 是 由 数据 测量 误差 造成 的 ， 也 可 能 是 一 些 我 们 未 知 的 
非 随机 因素 引起 的 。 例 如 ， 当 我 们 通过 身高 的 一 个 国 数 来 预测 体重 
时 ， 这 些 未 知 的 因素 可 能 就 包括 饮食 、 身 体 锻炼 情况 和 体型 等 。 


假设 两 个 变量 存在 这 样 的 一 个 线性 关系 ， 那 么 如 果 我 们 错误 地 估计 了 








注 2: 参见 http://wikipedia.org/wiki/Simple_linear_regression。 
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参数 a 和 6， 就 会 造成 很 大 的 残 差 。 所 以 ， 这 些 参数 自然 应 该 使 得 残 

差 尽 可 能 地 小 。 

一 般 地 ， 可 以 通过 最 小 化 残 差 的 绝对 值 、 平 方 、 立 方 等 来 求解 参数 。 

实际 中 最 通用 的 方法 是 使 残 差 的 平方 和 最 小 ， 即 

min2,8 

我 们 解释 一 下 这 个 选择 的 原因 。 

。 平方 能 将 正 残 差 和 负 残 差 都 变 成 正 数 ， 这 符合 我 们 的 目标 。 

。 平方 相当 于 给 残 差 赋 予 了 一 个 权重 ， 越 大 的 残 差 (绝对 量 ) 被 赋予 
的 权重 越 大 。 但 是 并 不 是 所 有 情况 下 大 的 残 差 都 应 该 被 赋予 大 的 权 
重 ， 因 为 这 样 拟 合 方程 就 很 容易 受到 异常 值 的 影响 。 

。 在 残 差 服从 均值 为 0、 方 差 为 ao (未 知 ， 但 为 常数 ) 的 正 态 分 布 ， 
且 在 残 差 与 x 独立 的 假设 下 ， 参 数 的 最 小 二 乘 估 计 结 果 与 极 大 似 然 
估计 量 相同 。) 

。 最 小 二 乘 估计 的 计算 非常 简单 。 

就 现在 而 言 ， 除 非 在 某 些 计算 效率 比方 法 更 重要 的 情况 下 ， 否 则 上 述 

最 后 一 个 原因 已 经 不 再 那么 具有 吸引 力 了 。 所 以 更 多 时 候 要 思考 的 

是 ， 就 我 们 的 问题 而 言 最 小 二 乘 是 否 是 最 适合 的 方法 。 

例如 ， 我 们 用 X 来 预测 7Z。 如 果 预 测 结果 偏 高 造成 的 代价 远 低 于 预测 

结果 偏 低 造成 的 代价 ， 那 么 构造 一 个 损失 函数 cost(s)， 并 最 小 化 损失 

函数 会 是 一 个 更 好 的 选择 。 


接 下 来 我 们 介绍 如 何 进行 最 小 二 乘 拟 合 。 
1. 计算 两 个 序列 的 均值 x 和 ,XX 的 方差 X 和 了 的 协 方差 。 
2. 估计 斜率 




















有 _ Cov(X,7) 
Var(X) 


注 3: 请 参考 Press 等 人 合 著 的 Numerical Recipes in C 第 15 章 : http://t.cn/zYeSWUm.。 
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3. 估计 截 距 
G =7— 底 


读者 可 以 从 http://wikipedia.org/wiki/Numerical_methods_for_linear_ 
least_squares 了 解 公式 的 推导 过 程 。 


习题 9-5 
请 编写 一 个 名 为 Leastsquares 的 函数 ， 用 来 估计 和 了 的 回归 系数 
4& 和 有 8。 可 以 从 http://thinkstats.com/correlation.py 下 载 到 问题 的 答案 。 


习题 9-6 
在 BRFSS 的 数据 中 ， 请 用 身高 对 体重 的 对 数 进行 最 小 二 乘 拟 合 。 可 
以 从 http://thinkstats.com/brfss_corr.py 下 载 到 问题 的 答案 。 


习题 9-7 

某 个 地 点 风速 的 分 布 决 定 了 该 地 点 的 风能 密度 。 风 能 密度 是 安装 在 该 
位 置 的 风力 涡轮 机 所 能 产生 的 平均 功率 的 上 限 。 根 据 之 前 的 一 些 研 
究 ， 风 速 的 经 验 分 布 非常 接近 威 布尔 分 布 (参考 http://wikipedia.org/ 
wiki/Wind_power#Distribution_of_wind_speed) . 





为 了 评 佑 某 个 地 方 是 否 有 安装 风力 说 轮 机 的 价值 ， 我 们 可 以 在 这 个 地 
方 设 置 一 个 风力 计 来 测量 一 段 时间 内 的 风速 。 但 很 难 测量 到 风速 分 布 
的 尾巴 ， 因 为 可 以 认为 这 是 一 个 小 概率 事情 ， 一 般 不 大 可 能 在 一 次 试 
验 中 被 观测 到 。 


一 种 解决 这 个 问题 的 方法 是 ， 我 们 先 估计 威 布尔 分 布 的 参数 ， 再 对 分 
布 求 积分 计算 风能 密度 。 


为 了 估计 威 布尔 分 布 的 参数 ， 可 以 用 习题 4-6 中 的 变换 方法 ， 然 后 用 
最 小 二 乘 拟 合 来 计算 变换 数据 的 斜率 和 截 距 。 


请 编写 一 个 从 威 布尔 分 布 中 抽取 样本 并 估计 分 布 参数 的 函数 。 





























一 
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最 后 请 编写 一 个 利用 威 布尔 分 布 参数 计算 平均 风能 密度 的 函数 。( 这 
里 你 可 能 需要 了 解 一 下 风力 方面 的 专业 知识 。) 


9.7 拟 合 优 度 
在 用 线性 模型 拟 合 完 数 据 之 后 ， 我 们 需要 评估 模型 拟 合 的 好 坏 情 况 。 
当然 ， 这 种 评估 取决 于 我 们 想 要 用 这 个 模型 来 做 什么 。 一 种 评估 模型 的 
办 法 是 计算 模型 的 预测 能 
在 一 个 预测 模型 中 ， 我 们 要 预测 的 值 称 为 因 变 量 (dependent variable ) ， 
而 用 于 预测 的 值 称 为 解释 变量 或 自 变 量 (explanatory variable 或 
independent variable ) 。 
我 们 可 以 通过 计算 模型 的 确定 系数 (coefficient of determination) ， 也 
即 通 常 所 说 的 R*?， 来 评价 模型 的 预测 能 
_ Var(é) 

Var(7) 
我 们 通过 一 个 例子 来 解释 一 下 R? 的 意义 。 假 设 你 试图 去 猜测 一 群 人 的 
体重 是 多 少 ， 你 知道 这 群 人 的 平均 体重 是 y。 如 果 除 此 之 外 你 对 这 些 
人 一 点 儿 都 不 了 解 ， 那 么 你 最 佳 的 策略 是 选择 猿 测 他 们 所 有 人 的 体重 
都 是 y。 这 时 ， 估 计 的 均 方 误差 就 是 这 个 群体 的 方差 Var(7): 


MSE = i150 —y)’ = Var(7) 


R=1 








接 下 来 ， 假 如 我 告诉 你 这 群 人 的 身高 信息 ， 那 么 你 就 可 以 猜测 体重 大 
约 为 & + Px， 在 这 种 情况 下 ， 估 计 的 均 方 误差 就 为 Var(e): 

MSE = i> (G+ Br- = Var(e) 
所 以 ，Var(s)/Var(7) 表示 的 是 有 解释 变量 情况 下 的 均 方 误差 与 没有 解 
释 变 量 情况 下 的 均 方 误差 的 比值 ， 也 即 不 能 被 模型 解释 的 均 方 误差 占 
总 的 均 方 误差 的 比例 。 这 样 R 表示 的 就 是 能 被 模型 解释 的 变异 性 的 
比例 。 





假如 一 个 模型 的 R?=0.64， 那么 我 们 就 可 以 说 这 个 模型 解释 了 64% 
的 变异 性 ， 或 者 可 以 更 精确 地 说 ， 这 个 模型 使 你 预测 的 均 方 误差 降 
低 了 64%。 
在 线性 最 小 二 乘 模型 中 ， 我 们 可 以 证 明确 定 系 数 和 两 个 变量 的 皮尔 逊 
相关 系数 存在 一 个 非常 简单 的 关系 ， 即 : 

R=p? 


有 具体 证 明 可 参考 http://en.wikipedia.org/wiki/Coefficient_of_determination。 


习题 9-8 
韦 克 斯 勒 成 人 智力 量 测验 (Wechsler Adult Intelligence Scale，WAIS ) 
是 一 种 测量 智商 的 方法 。 测 量 的 分 数 都 进行 了 校正 ， 使 得 其 人 群 中 的 
均值 为 100， 标 准 差 为 15。 


假设 你 想 通过 一 群 人 的 SAT 成 绩 来 预测 这 些 人 的 WAIS 分 数 。 根 
据 之 前 的 一 ee SAT 成 绩 与 WAIS a tn 
为 0.72。 


如 果 将 你 的 模型 用 到 一 个 非常 大 的 人 群 中 ， 你 预期 预测 的 均 方 误差 会 


是 多 少 ? 





提示 : 如 果 总 是 预测 WAIS 分 数 等 于 100， 那 么 均 方 误差 会 是 多 少 呢 ? 


习题 9-9 
编写 一 个 名 为 Residuals 的 国 数 ， 根 据 X、 坟 2 和 A， 计算 残 差 si。 
编写 一 个 名 为 coefDetermination 的 函数 ， 根 据 e, 和 YY， 计 算 R’, 
要 测试 函数 的 正确 性 ， 看 是 否 有 R=p ”。 读 者 可 以 从 http://thinkstats. 
com/correlation.py 下 载 问题 的 答案 。 

习题 9-10 

根据 BRFSS 中 身高 和 体重 的 数据 ， 计 算 4、B 和 R 。 如 果 需 要 预测 一 
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个 人 的 体重 ， 那 么 他 的 身高 会 对 你 起 多 大 的 帮助 ? 读者 可 以 从 http:/ 
thinkstats.com/brfss_corr.py 下 载 问题 的 答案 。 


9.8 相关 性 和 因果 关系 

一 般 说 来 ， 两 个 变量 之 间 的 相关 关系 并 不 能 告诉 我 们 一 个 变量 的 变化 
是 否 是 由 另 一 个 变量 的 变化 引起 的 ， 或 许 两 个 变量 就 没有 直接 的 因果 
关系 ， 而 是 因为 其 他 原因 导致 二 者 同时 发 生 了 相同 (或 相反 ) 趋势 
的 变化 ， 也 或 许 就 是 因为 偶然 因素 造成 了 它们 之 间 的 相关 性 。( 参 考 
http://xkcd.com/552/, ) 














维基 百科 的 “Correlation does not imply causation” 简 要 列 出 了 可 能 导 
致 两 个 变量 产生 相关 性 的 原 因 。 读 者 可 以 参考 http://en.wikipedia.org/ 


wiki/Correlation_does_not_imply_causation。 








那么 我 们 怎么 样 才能 从 相关 性 的 信号 中 得 到 因果 关系 的 结果 呢 ? 


. 利用 时 间 的 先后 关系 。 如 果 A 事件 在 B 事件 之 前 发 生 ， 那 么 A 就 
有 可 能 是 导致 B 的 原因 (但 反之 不 成 立 ， 根 据 因果 关系 的 常识 是 这 样 
的 )。 事 件 发 生 的 顺序 可 以 帮助 我 们 推断 因果 顺序 ， 但 是 这 并 不 能 排 
除 存 在 另外 一 些 事件 导致 了 A 和 B 的 发 生 。 


.利用 随机 性 。 如 果 我 们 将 一 个 非常 大 的 总 体 随机 分 成 两 部 分 ， 然 后 
分 别 计算 这 些 变量 在 两 个 子 总 体 中 的 平均 值 。 我 们 可 以 期 望 这 些 均 
值 的 差异 会 很 小 ， 因 为 中 心 极限 定理 保证 了 这 一 结果 。 

如 果 有 一 个 变量 在 两 个 分 组 中 有 明显 的 差别 ， 而 其 他 所 有 的 变量 在 两 
个 分 组 里 面 都 儿 乎 一 样 ， 这 时 我 们 就 可 以 排除 掉 一 些 虚 假 的 相关 性 。 
即使 相关 变量 未 知 ， 这 个 方法 也 行 得 通 ， 当 然 知 道 会 更 好 ， 这 样 我 
们 就 能 检查 两 个 分 组 是 否 一 致 。 


| 



































MD 





随机 对 照 试 验 (randomized controlled trial) 就 是 根据 这 些 想法 设置 
的 。 在 这 种 试验 中 ， 被 试 者 被 随机 地 分 成 两 组 (或 多 组 ) : 实验 组 
(treatment group) 会 接受 某 种 干预 ， 例 如 服用 某 种 新 药 ， 而 对 照 组 


(control group) 则 不 接受 这 种 干预 或 者 只 接受 已 知 效应 的 处 理 ，。 
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随机 对 照 试 验 的 结果 在 因果 关系 的 鉴定 上 是 最 可 信赖 的 方法 之 
一 ， 在 循 证 医学 中 有 广泛 的 应 有 用。 参考 http://wikipedia.org/wiki/ 


Randomized_controlled_trial。 


不 幸 的 是 ， 随 机 对 照 试 验 只 能 用 于 实验 研究 、 药 物 研 发 等 少数 情况 。 
社会 科学 很 少 用 到 这 种 方法 ， 因 为 这 种 试验 可 能 无 法 进行 ， 或 者 会 引 
起 伦理 争端 。 


另外 一 种 方式 是 进行 自然 试验 (natural experiment)。 在 这 种 试验 中 ， 
我 们 尽量 控制 群体 在 各 个 方面 都 是 相似 的 ， 然 后 对 不 同 的 群体 实施 不 
同 的 处 理 。 这 里 会 涉及 的 一 个 问题 是 各 个 群体 可 能 存在 一 些 我 们 观 
测 不 到 的 差异 。 维 基 百 科 上 给 出 了 更 详细 的 信息 http://wikipedia.org/ 


wiki/Natural_experiment。 











在 某 些 情况 下 我 们 能 通过 回归 分 析 (regression analysis) 推断 出 因果 
关系 。 线 性 最 小 二 乘 是 用 自 变 量 解释 因 变 量 的 简单 回归 。 本 章 只 讨论 
了 有 一 个 自 变量 时 的 情况 ， 多 个 自 变 量 的 回归 所 用 的 技术 与 本 章 所 用 
的 基本 相同 。 


本 书 并 未 涉及 这 些 技 术 ， 有 很 多 种 方法 可 以 控制 虚假 的 相关 性 。 例 
如 ， 在 NSFG 的 数据 中 ， 我 们 发 现 第 一 胎 婴 儿 的 体重 倾向 于 比 非 第 一 
胎 婴 儿 的 轻 〈 参 见 3.6 闻 ), 但 是 婴儿 出 生 的 体重 还 与 母亲 的 年 龄 有 
关 。 而 生 第 一 胎 婴 儿 的 母亲 的 年 龄 倾向 于 比 生 非 一 胎 婴 儿 母 亲 的 小 。 


所 以 有 可 能 是 生 第 一 胎 婴 儿 的 母亲 更 年 轻 导 致 了 第 一 胎 婴 儿 的 体重 更 
轻 。 为 了 控制 年 龄 的 影响 ， 我 们 可 以 将 母亲 按 年 龄 大 小 分 组 ， 然 后 比 
较 同 一 个 分 组 中 第 一 胎 婴 儿 的 体重 和 非 第 一 胎 婴 儿 的 体重 。 


如 果 这 时 体重 的 差异 依然 存在 ， 那 么 我 们 就 可 以 说 这 种 体重 上 的 差异 
跟 母 亲 的 年 龄 无 关 。 但 如 果 这 时 各 个 分 组 之 间 的 体重 差异 消失 了 ， 那 
么 我 们 得 到 的 结论 就 是 这 种 体重 上 的 差异 完全 是 由 母亲 的 年 龄 造成 
的 。 或 者 ， 如 果 这 些 体重 差异 变 小 了 ， 我 们 可 以 计算 出 母亲 年 龄 对 体 
重 差 异 造 成 了 多 大 的 影响 。 
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习题 9-11 
NSFG 的 数据 中 包含 了 一 个 记录 婴 儿 出 生 时 母亲 年 龄 的 变量 agepreg。 
绘制 母亲 年 龄 和 婴儿 出 生体 重 的 散 点 图 ， 两 者 之 间 关 系 如 何 ? 





用 母亲 年 龄 对 婴儿 出 生体 重 进行 最 小 二 乘 拟 合 。 估 计量 4%、 的 单位 
是 什么 ? 是 否 可 以 用 一 两 句 话 描述 这 个 拟 合 结果 的 意义 。 

计算 生 头 胎 婴 儿 的 母亲 年 龄 的 均值 和 生 非 头 胎 婴儿 的 母亲 年 龄 的 均 
值 。 两 个 分 组 的 母亲 年 龄 均值 差异 有 多 大 才 会 影响 到 婴儿 出 生体 重 的 
差异 ? 婴儿 出 生体 重 的 差异 有 多 大 比例 可 以 用 分 娩 时 母亲 年 龄 的 差异 
来 解释 ? 

读者 可 以 从 http://thinkstats.com/agemodel.py 下 载 问 题 的 答案 。 如 果 
读者 对 多 元 回归 感 兴趣 ， 可 以 浏览 http://thinkstats.com/age_lm.py， 这 
里 展示 了 如 何 通过 Python 调用 R 这 个 统计 计算 软件 。 


9.9 术语 


。 确定 系数 (coefficient of determination ) 


衡量 模型 拟 合 结果 好 坏 的 指标 。 





。 对 照 组 (control group) 
对 照 试验 中 没有 接受 处 理 的 组 ， 或 受到 已 知 效应 处 理 的 组 。 





。 相关 性 (correlation ) 
对 两 个 变量 关系 的 一 种 描述 。 


。 协 方差 (covariance ) 

衡量 两 个 变量 变化 方向 是 否 一 致 的 统计 量 。 
。 因 变 量 (dependent variable) 

我 们 想 要 解释 或 者 预测 的 变量 。 


。 自 变 量 (independent variable ) 


用 于 预测 因 变 量 的 变量 ， 也 称 解释 变量 。 








相关 性 | 139 


。 最 小 二 乘 拟 合 (least squares fit) 


最 小 化 残 差 平方 和 的 数据 拟 合 方法 。 


。 自然 试验 (natural experiment) 
一 种 试验 设计 的 方法 ， 就 是 利用 自然 形成 的 界限 将 受 试 者 分 成 儿 个 
分 组 ， 并 且 大 体 上 使 得 分 组 结果 接近 随机 分 组 。 
。 归 一 化 (normalize ) 
将 一 组 数据 进行 转换 ， 使 其 均值 为 0， 方 差 为 1。 
。 随机 对 照 试验 (randomized controlled trial ) 
一 种 试验 设计 的 方法 ， 将 受 试 者 随机 分 成 几 个 分 组 ， 并 对 不 同 的 分 
组 实施 不 同 的 处 理 。 





。 秩 (rank) 
将 一 个 序列 按 大 小 排序 后 ， 序 列 中 的 某 个 元 素 所 处 的 位 置 。 


。 残 差 (residual) 
衡量 模型 预测 结果 与 真实 值 离 差 的 值 。 
。 标准 分 数 (standard score) 


归 一 化 后 的 值 。 


。 处 理 (treatment) 
对 照 试验 中 对 一 个 分 组 所 做 的 干预 或 改变 。 
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Statistics Programming 
ES 
现实 工作 中 ， 人 们 常 被 要 求 用 数据 说 话 。 可 是 ， 数 据 自 己 是 不 能 说 话 的 ， 只 有 对 它 
进行 可 靠 分 析 和 深入 挖掘 才能 找到 有 价值 的 信息 。 概 率 统 计 是 数据 分 析 的 通用 语 
言 ， 是 大 数据 时 代 预 测 未 来 的 根基 。 


站 在 时 代 浪 尖 上 的 程序 员 只 有 有 具备 统计 思维 才能 擎 握 数 据 分 析 的 必 杀 技 。 本 书 正 是 
一 本 概率 统计 方面 的 入 门 图 书 ， 但 视角 极为 独特 ， 折 射出 大 数据 浪潮 的 别 样 风景 。 
作者 将 基本 的 概率 统计 知识 融入 Python 编程 ， 告 诉 你 如 何 借助 编写 程序 ， 用 计算 而 
非 数学 的 方式 实现 统计 分 析 。 一 个 趣味 实例 贯穿 全 书 ， 生 动 地 讲解 了 数据 分 析 的 全 
过 程 : 从 采集 数据 和 生成 统计 量 ， 到 识别 模式 和 检验 假设 。 一 册 在 手 ， 让 你 轻松 擎 
握 分 布 、 概 率 论 、 可 视 化 以 及 其 他 工具 和 概念 。 


编写 测试 代码 深入 理解 概率 统计 目 学 习 贝 叶 斯 估计 等 实用 内 容 
目 运行 实验 检验 统计 行为 特征 加 用 Python 导入 各 种 来 源 的 数据 
四 通过 模拟 理解 数学 上 艰 涩 的 概念 田 运用 统计 推断 解决 真实 数据 问题 


Allen B. Downey 是 富兰克林 欧 林 工程 学 院 计 算 机 科学 副教授 ， 加 州 大 学 伯克利 
分 校 计 算 机 科学 博士 。Downey 已 出 版 十 余 本 技术 书 ， 内 容 涉 及 Java、Python、 
C++、 概 率 统计 等 ， 深 受 专 业 读者 喜爱 。 他 的 最 新 Think 系 列 书 还 有 ThinkComplexity: 


Complexity Science and Computational Modeling Think Python, 





OREILLY” 


oreilly.com.cn 





封面 设计 : Karen Montgomery 张 健 

图 灵 社 区 : www.ituring.com.cn 

新 浪 微 博 ，@ 图 灵 教 育 @ 图 灵 社 区 

反馈 /投稿 /推荐 信箱 : contact@turingbook.com 
热线 : (010)51095186 转 604 


网 计算 可 /计算 机 数学 | 
人 民 邮 电 出 版 社 网 址 : Www.ptpress.com.cn 
O'Reilly Media,lnc. 授 权 人 民 邮 电 出 版 社 出 版 
此 简体 中 文 版 仅 限于 中 国 大 陆 (不 包含 中 国 香港 、 澳 门 特别 行政 区 和 中 国人 台湾 地 区 ) 9 lr871151317377 


销售 发 行 ISBN 978-7-115-31737-7 


This Authorized Edition for sale only in the territory of Peoples Republic Es 一 
of China (excluding Hong Kong, Macao and Taiwan) 定价 ， 29.00 元 








欢迎 加 入 


Ec— > 
图 灵 信 区 
最 前 沿 的 |T 类 电子 书 发 售 平台 


电子 出 版 的 时 代 已 经 来 临 。 在 许多 出 版 界 同 行 还 在 狐 图 灵 社 区 进一步 把 传统 出 版 流程 与 电子 书 出 版 业务 
歼 簿 香 的 时 候 ， 图 灵 社区 已 经 采取 实际 行动 拥抱 这 个 紧密 结合 ， 目 前 已 实现 作 译 者 网 上 交 稿 、 编 辑 网 上 
出 版 业 巨 变 。 作 为 国内 第 一 家 发 售 电子 图 书 的 IT 类 出 审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模 
版 商 ， 图 灵 社 区 目前 为 读者 提供 两 种 DRM-free 的 阅读 式 ， 我 们 称 之 为 “敏捷 出 版 ”， 它 可 以 让 读者 以 较 
体验 : 在 线 阅读 和 PDF。 快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 以 


入 禹 译 版 技术 书 “ 出 版 即 过 时 ”的 缺 全 。 同 时 ， 伺 
相 比 纸 质 书 ， 电 子 书 具有 许多 明显 的 优势 。 它 不 仅 发 捷 出 版 使 得 作 、 译 、 编 、 读 的 交流 更 为 方便 ， 可 以 
布 快 ， 更 新 容易 ， 而 且 尽 可 能 采用 了 彩色 图 片 (即使 ooo oo tora 

. . 提前 消灭 书稿 中 的 错误 ， 最 大 程度 地 保证 图 书 出 版 
有 的 书 纸 质 版 是 黑白 印刷 的 。 读 者 还 可 以 方便 地 进 和 质 
搜索、 前 贴 、 复 制 和 打印 。 
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最 方便 的 开放 出 版 平台 最 直接 的 读者 交流 平台 


图 灵 社区 向 读者 开放 在 线 写作 功能 ， 协 助 你 实现 自 出 在 图 灵 社 区 ， 你 可 以 十 分 方便 地 写作 文章 、 提 交 勘 
版 和 开源 出 版 的 梦想 。 利 用 “合集 ”功能 ， 你 就 能 联 、 发 表 评论 ， 以 各 种 方式 与 作 译 者 、 编 辑 人 员 和 
合 二 三 好 友 共 同 创作 一 部 技术 参考 书 ， 以 免费 或 收费 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 赠 社区 
的 形式 提供 给 读者 。 (收费 形式 须 经 过 图 灵 社 区 立项 银子 。 

评审 。) 这 极 大 地 降低 了 出 版 的 门槛 。 只 要 你 有 写作 
的 意愿 ， 图 灵 社 区 就 能 帮助 你 实现 这 个 梦想 。 成 熟 的 你 可 以 积极 参与 社区 经 常 开 展 的 访谈 、 审 读 、 评 先 
书稿 ， 有 机 会 入 选 出 版 计划 ， 同 时 出 版 纸 质 书 。 等 多 种 活动 ， 赢 取 积 分 和 银子 ， 积 累 个 人 声望 。 
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玫 灵 社区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马上 在 
社区 公布 。 如 果 你 有 意 翻译 哪 本 图 书 ， 欢 迎 你 来 社区 
申请 。 只 要 你 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 
译 者 。 当 然 ， 要 想 成 功 地 完成 一 本 书 的 翻译 工作 ， 是 
需要 有 坚强 的 多 力 的 。 
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